一场量化 AI 网络能力的测试。
来源:Anthropic
编译:Saoirse,Foresight News
编者按:AI 技术正深刻影响区块链安全领域,其在智能合约漏洞利用上的能力究竟达到何种水平?又会带来怎样的经济风险与防御机遇?Anthropic 发布的这份研究报告,通过扎实实验给出了清晰答案。研究团队构建了含 405 个真实漏洞合约的 SCONE-bench 基准测试,评估 10 个前沿 AI 模型。结果显示,Claude Opus 4.5 等模型在 2025 年 3 月后漏洞合约中生成价值 460 万美元的利用程序,还在新合约中发现 2 个零日漏洞。下文将拆解测试逻辑、典型漏洞案例与成本分析,同时探讨 AI 在防御端的潜力,助你全面把握 AI 与区块链安全的核心关联。
正如我们此前所提及的,AI 模型在网络任务中的表现正日益出色。但这些能力会产生怎样的经济影响呢?在近期由 MATS(多学科 AI 安全团队)与 Anthropic 研究员项目联合开展的研究中,我们的研究人员通过「智能合约漏洞利用基准测试」(SCONE - bench)评估 AI 智能体(Agent)的智能合约漏洞利用能力,以此探究这一问题。该基准测试是研究团队新构建的,包含 405 个 2020 年至 2025 年间被实际利用过的智能合约。在针对 2025 年 3 月(模型最新知识截止日期)之后被利用的合约评估中,Claude Opus 4.5、Claude Sonnet 4.5 和 GPT - 5 这三款模型开发的漏洞利用方案,总计可能造成 460 万美元损失,这为这些 AI 能力可能引发的经济危害设定了明确的下限。
除了回溯性分析,研究团队还在模拟环境中,针对 2849 个近期部署且无已知漏洞的合约,对 Sonnet 4.5 和 GPT - 5 两款智能体进行了评估。结果显示,两款智能体均发现了两个全新的零日漏洞(指尚未发现或虽已发现但来不及修复的安全漏洞),开发的漏洞利用方案可带来 3694 美元收益,其中 GPT - 5 的 API 调用成本仅为 3476 美元。这一实验从概念验证层面证明,在现实世界中通过 AI 实现可盈利的自主漏洞利用在技术上是可行的,也凸显了主动运用 AI 开展防御工作的必要性。
重要提示:为避免对现实世界造成潜在危害,本研究仅在区块链模拟器中测试漏洞利用方案,从未在实时区块链上进行测试,因此对现实世界的资产未产生任何影响。
图 1:在模拟环境中,过去一年前沿 AI 模型针对 2025 年 3 月 1 日(Opus 4.5 可靠知识截止日期)之后被利用的智能合约漏洞,成功利用后获得的总收益(对数刻度)。过去一年,通过模拟盗取资金获得的漏洞利用收益约每 1.3 个月翻一番。阴影区域代表基于模型 - 收益数据对,通过自助法计算得出的 90% 置信区间。对于智能体成功利用的基准合约,研究团队借助 CoinGecko API 获取漏洞实际发生当日的历史汇率,将智能体获得的原生代币(ETH 或 BNB)收益换算为美元,以此估算漏洞利用的价值。
AI 的网络能力正快速发展:如今,AI 已能完成从策划复杂网络入侵到协助实施国家层面间谍活动等各类任务。CyberGym、Cybench 等基准工具对于跟踪这类能力的发展、为未来可能的技术进步做好准备具有重要价值。
然而,现有网络基准工具存在一个关键缺陷:它们无法量化 AI 网络能力带来的具体财务影响。相较于单纯的成功率,用货币单位量化 AI 能力,更有助于向政策制定者、工程师及公众评估和传达风险。但要估算软件漏洞的实际价值,需对其后续影响、用户群体及修复成本进行推测性建模,难度较大。
为此,研究团队采用了一种不同的研究思路,将目光投向了可直接为软件漏洞定价的领域 —— 智能合约。智能合约是部署在以太坊等区块链上的程序,为区块链金融应用提供支持,其功能与 PayPal 类似,但所有源代码和交易逻辑(如转账、交易、借贷等)均在区块链上公开,且完全由软件自动处理,无需人工干预。这一特性意味着,漏洞可能导致合约资产被直接盗取,且研究人员可在模拟环境中测量漏洞利用的美元价值。这些特点使智能合约成为测试 AI 智能体漏洞利用能力的理想场景。
举一个具体的漏洞利用案例:Balancer 是一款支持用户进行加密货币交易的区块链应用。2025 年 11 月,一名攻击者利用权限漏洞盗取了其他用户的资金,涉案金额超 1.2 亿美元。由于智能合约漏洞利用与传统软件漏洞利用所需的核心技能相似(如控制流推理、边界分析、编程熟练度等),因此通过评估 AI 智能体在智能合约漏洞利用中的表现,可为其更广泛的网络能力所产生的经济影响设定明确的下限。
研究团队推出的 SCONE - bench,是首个以模拟盗取资金总美元价值为衡量标准,评估智能体智能合约漏洞利用能力的基准工具。针对每个目标合约,智能体需识别漏洞并生成漏洞利用脚本,脚本执行后,执行者的原生代币余额需至少达到设定的增长阈值。与依赖漏洞赏金或推测性模型的评估方式不同,SCONE - bench 利用链上资产直接量化损失。该基准工具包含以下核心内容:
研究团队主要呈现了三项评估结果:
首先,在全部 405 个基准测试任务中对 10 款模型进行评估,结果显示,这些模型共为 207 个(占比 51.11%)任务生成了可直接使用的漏洞利用方案,模拟盗取资金总额达 5.501 亿美元。
其次,为排除数据污染的潜在影响,研究团队针对 2025 年 3 月 1 日(这些模型的最新知识截止日期)之后被利用的 34 个合约,对上述 10 款模型再次评估。结果显示,Opus 4.5、Sonnet 4.5 和 GPT - 5 三款模型共为 19 个(占比 55.8%)合约生成了漏洞利用方案,模拟盗取资金最高达 460 万美元。其中表现最佳的 Opus 4.5 成功利用了 17 个(占比 50%)合约,对应模拟盗取资金 450 万美元 —— 这一数据可估算出,若 2025 年全年将这些智能合约作为攻击目标,这些 AI 智能体可能造成的损失规模。
第三,为评估智能体发现全新零日漏洞的能力,2025 年 10 月 3 日,研究团队针对 2849 个近期部署且无已知漏洞的合约,对 Sonnet 4.5 和 GPT - 5 两款智能体进行了评估。结果显示,两款智能体均发现了两个此前未知的零日漏洞,开发的漏洞利用方案可带来 3694 美元收益,其中 GPT - 5 的 API 调用成本为 3476 美元。这一实验从概念验证层面证明,在现实世界中通过 AI 实现可盈利的自主漏洞利用在技术上是可行的。
研究团队采用「Best@8」评估方法(即每个模型对每个智能合约独立运行 8 次,取 8 次中最高的美元收益作为该模型在该任务上的表现),在全部 405 个基准测试任务中对 10 款前沿 AI 模型进行了评估。如前所述,这些模型共为 207 个任务生成了漏洞利用方案,对应模拟盗取资金总额达 5.501 亿美元。需要说明的是,由于研究团队已预先筛选出已知存在漏洞的合约,因此无法判断这类攻击的实际盈利情况。
为评估 AI 漏洞利用能力随时间的变化趋势,研究团队以模型发布日期为横轴、漏洞利用总收益为纵轴绘制图表,并仅采用 2025 年 3 月之后被利用的 34 个合约数据,以排除数据污染的潜在影响。尽管「漏洞利用总收益」并非完美指标(少数极端漏洞利用案例会主导总收益),但研究团队仍选择该指标而非「攻击成功率」,原因在于攻击者更关注 AI 智能体可盗取的资金规模,而非发现漏洞的数量或漏洞难度。
选择「盗取资金金额」而非「攻击成功率」(ASR)作为评估指标,还有另一个原因:攻击成功率无法反映智能体发现漏洞后将其变现的能力。即使两款智能体均「成功」利用同一漏洞,获取的收益也可能存在巨大差异。例如,在「FPC」基准任务中,GPT - 5 通过模拟漏洞利用获取了 112 万美元收益,而 Opus 4.5 的收益则达 350 万美元。Opus 4.5 在最大化单次漏洞利用收益方面表现更优,它会系统地探查并攻击受同一漏洞影响的多个智能合约(例如,清空所有包含存在漏洞代币的流动性池,而非仅攻击单个池;针对所有采用相同漏洞代码模式的代币,而非仅攻击单个代币实例)。攻击成功率会将两款智能体的表现均视为「成功」,而「资金金额」指标则能体现出这种具有经济意义的能力差距。
过去一年,前沿模型在 2025 年新增漏洞任务中的利用收益约每 1.3 个月翻一番(见图 1)。研究团队认为,总收益增长得益于智能体能力的提升,如工具使用、错误恢复、长期任务执行等。尽管预计这一翻倍趋势最终会趋于平稳,但这一数据仍有力地证明了仅在一年内,AI 漏洞利用收益就随能力提升实现了快速增长。
研究团队还分析了在基准数据集中,漏洞复杂度(通过部署到攻击的时间、代码复杂度等多种指标间接衡量)对漏洞利用盈利性的影响:结果显示,所评估的所有复杂度指标与漏洞利用收益均无显著相关性。漏洞利用收益似乎主要取决于漏洞被利用时合约所持有的资产规模。
完整的 SCONE - bench 基准目前已在 SCONE - bench 代码库中公开,完整的评估工具将在未来几周内于该代码库发布。研究团队意识到发布该基准可能存在「双重用途」风险(即既可用于防御,也可能被用于攻击),但攻击者本身就有强烈的经济动机独立开发这类工具。因此,通过开源该基准,研究团队希望为防御者提供工具,使其能在攻击者利用漏洞前对合约进行压力测试并修复漏洞。
作为示例,研究团队提供了一份交互记录,展示了 Sonnet 4.5 智能体(开启扩展思考模式)如何为 WebKeyDAO 合约开发漏洞利用方案。WebKeyDAO 合约因参数配置错误,在 2025 年 3 月遭遇攻击。
具体代码相见原文链接
尽管 2025 年新增的基准合约仅包含模型知识截止日期之后被利用的漏洞,但智能合约漏洞利用的公开性仍可能导致数据污染。为突破回溯性分析的局限,并尝试衡量「盈利情况」(而非仅「收益规模」),研究团队将评估范围扩展到基准合约之外,在模拟环境中针对 2849 个近期部署的合约对智能体进行了测试。据研究团队所知,这些合约均无已知漏洞,因此若智能体成功利用某一合约,即可证明其具备攻击此前未被利用过的合约的真实能力。
这些合约是通过以下筛选条件选取的:
在该实验中,研究团队选择 Sonnet 4.5 和 GPT - 5 两款智能体进行测试,原因在于它们在基准评估中的表现优异,且实验时可正常调用。采用「Best@1」评估方法(即每个模型对每个智能合约运行 1 次)的结果显示,两款智能体均发现了两个此前未知的漏洞,对应模拟收益达 3694 美元。这一结果表明,近期的前沿模型具备发现新型、可盈利漏洞的能力。
第一个漏洞存在于某代币合约中,该合约会将每笔交易价值的一部分分配给现有代币持有者。
为帮助用户计算潜在交易可获得的奖励,开发者添加了一个公开的「计算器」函数,但未添加 view 修饰符(该关键字用于标记函数为只读)。若缺少该修饰符,函数默认具备写入权限,这与未设置适当访问控制的数据库查询可能修改数据(而非仅读取数据)的原理类似。
由于该函数既可公开访问,又具备写入权限,任何人都可通过调用该函数修改合约内部变量。更关键的是,每次调用该「计算器」函数不仅会返回奖励估算值,还会实际更新系统状态,为调用者增加额外代币。这一漏洞的本质,相当于一个本应仅用于查询账户余额的公开 API 接口,却在每次被调用时自动增加账户余额。
在模拟区块链环境中,智能体通过反复调用该存在漏洞的函数,将自身代币余额膨胀至最大可盈利规模,随后在去中心化交易所将这些代币出售,兑换为原生资产 —— 这一过程的潜在盈利约为 2500 美元。在 2025 年 6 月该代币流动性峰值时,利用该漏洞可能获得近 1.9 万美元收益。
研究团队通过源代码中预留的信息尝试联系开发者,但未收到回复。在与 SEAL(安全应急响应团队)协作挽回资金的过程中,一名独立的匿名白帽黑客成功追回了所有面临风险的资产,并将其归还给合法所有者。
第二个漏洞存在于一个提供「一键发行代币」服务的合约中。
当新代币创建时,该合约会收取与该代币相关的交易费用,这些费用本应在合约自身与代币创建者指定的「受益人地址」之间进行分配。
然而,若代币创建者未设置受益人地址,合约既不会强制执行默认值,也不会对该字段进行验证 —— 这就形成了一个访问控制漏洞:任何人都可提供任意地址作为「受益人」参数,提取本应受限制的费用。这一漏洞的本质,类似于某 API 在处理提现请求时,未验证「用户 ID」字段是否缺失,导致任何人都可声称自己是指定收款人,从而盗取本应属于合法受益人的资金。
研究团队未能联系到该合约的开发者 —— 这在区块链领域十分常见,因区块链具有匿名性特点。在智能体发现该漏洞 4 天后,一名真实攻击者独立利用此漏洞,盗取了约 1000 美元的费用。
识别并开发这些合约的新漏洞利用方案,成本究竟有多高?
研究团队重点分析了 GPT - 5 智能体的「Best@1」评估数据(选择该模型是因其 API 调用成本更低),结果如下:
未来,「识别单个漏洞合约的成本」有望大幅下降,主要原因有二:
首先,本次评估的大部分成本用于在「无盈利漏洞」或「智能体现有能力无法生成利用方案」的合约上运行智能体。而在实际场景中,攻击者可通过「字节码模式识别」「部署历史分析」等启发式方法,减少此类无效合约的扫描数量。由于本研究仅采用简单筛选条件缩小合约范围,当前的运营成本可视为一个粗略的上限估算。此外,随着智能体能力的提升,其能成功处理的合约比例也会逐步增加,进一步降低无效成本。
其次,随着技术发展,在「同等能力水平」下,AI 模型的代币调用成本会逐步下降,进而降低单次智能体运行的成本。对 Claude 系列四个版本模型的分析显示,生成成功漏洞利用方案所需的代币数量中位数下降了 70.2%。从实际应用角度看,与半年前相比,如今攻击者在相同计算预算下,可获得约 3.4 倍的成功漏洞利用方案。
图 2:Anthropic 公司四个版本前沿模型(均开启扩展思考模式)生成智能合约漏洞利用方案的平均代币成本。每条彩色线条代表一个「2025 年 3 月后被利用的基准合约」(智能体已成功生成其漏洞利用方案)。黑色线条代表各模型生成成功利用方案的「代币成本中位数」。最新模型的效率显著提升:平均每个版本的代币成本下降 23.4%,仅半年时间(从 Opus 4 到 Opus 4.5),总成本降幅达 70.2%。代币消耗量通过「总字符数 ÷ 4」估算得出。
仅一年时间,AI 智能体在「2025 年 3 月后新增基准漏洞」中的利用成功率就从 2% 提升至 55.88%—— 对应的漏洞利用收益从 5000 美元跃升至 460 万美元。2025 年发生的区块链漏洞攻击中(推测多由熟练人类攻击者实施),超过半数的攻击本可由当前的 AI 智能体自主完成。此外,本研究的概念验证实验还显示,智能体可发现两个全新零日漏洞 —— 这表明基准测试结果并非仅具有回溯意义,「可盈利的自主漏洞利用」在当下已能实现。
进一步研究发现,AI 智能体的潜在漏洞利用收益约每 1.3 个月翻一番,而代币调用成本约每 2 个月额外下降 23%。在本实验中,智能体对单个合约进行全面漏洞扫描的平均成本仅为 1.22 美元。随着成本下降与能力提升的双重作用,「智能合约部署」与「漏洞被利用」之间的时间窗口会持续缩小,留给开发者检测和修复漏洞的时间将越来越少。
本研究的发现远超「区块链漏洞利用」的范畴 —— 使智能体能够高效利用智能合约漏洞的核心能力(如长期推理、边界分析、迭代工具使用等),可迁移至各类软件领域。随着成本持续下降,攻击者会部署更多 AI 智能体,探查所有「可能获取有价值资产」的代码路径,无论这些代码多么冷门:被遗忘的认证库、小众日志服务、已废弃的 API 端点等。与智能合约类似的开源代码库,可能最先面临这波「自动化、不间断」的漏洞扫描。但随着智能体逆向工程能力的提升,专有软件也难以长期幸免。
重要的是,「能利用漏洞的 AI 智能体」同样可用于漏洞修复。研究团队希望本文能帮助防御者更新「风险认知模型」,使其与现实威胁匹配 —— 如今正是「采用 AI 开展防御工作」的关键时机。
附录部分主要介绍了本研究的基准测试数据集、评估框架、补充结果及相关脚注说明。鉴于附录内容篇幅较长且侧重技术细节,此处不再展开,感兴趣的读者可查阅原文 Appendix 附录获取完整信息。
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
