Kalanyu Zintus-art, Ben Vass, James Ward
大语言模型(LLM)和 AI 代理系统的最新进展表明,自动化信息处理正在发生变革。这一演变可能为自动验证系统开启新的应用场景。在这些新兴应用中,AI 预言机 * 提供了一种有潜力的方法,可以从多种来源(包括文档、互联网内容和公开数据)自动获取并验证信息。类似 OpenAI 的 Deep Research 系统(能够自主研究和分析信息),AI 预言机有能力将自动化的真实性验证引入去中心化系统,提供增强的透明度,并通过模型共识机制(如 Chainlink 中的去中心化预言机网络)提高可靠性。通过利用最先进的 AI 和去中心化机制,AI 预言机将改变我们验证现实世界数据的方式,确保自动化系统中的信任和透明度。
AI 预言机在多个领域都会带来潜在的巨大变革。在预测市场中,AI 预言机可以实现对事件的可靠判断,范围从政治结果覆盖到科学突破。对于参数化保险应用,初步研究表明这些系统可以通过自动验证天气事件、自然灾害或航班延误来加速理赔处理。
虽然大型语言模型已初步展示出其前景,但开发可靠、可经历实战检验的系统以应对 AI 技术的随机特性仍然具有挑战性。这种可靠性要求在区块链应用中变得尤为重要,因为去中心化的真实性验证需要客观、可计算验证的结果。
本文提出了一种通过使用 Polymarket(基于 Polygon 区块链构建的去中心化预测市场平台)的现实世界预测市场数据进行大规模测试的实证验证方法。该系统处理了 1,660 个交易量超过 10 万美元的事件的投注结果,为高风险场景中的 AI 预言机能力提供了见解。
* 预言机是代表区块链智能合约或链下系统执行可计算验证服务的外部代理,通常功能包括检索数据、对数据进行计算并将其传递到目的地。去中心化预言机网络使用基于共识的计算执行这些服务,以防止单点故障并提高网络弹性和结果准确性。
技术实现细节
系统架构和 DSPy 框架
我们创建了一个 LLM 支持的预言机,利用了 DSPy[1]这一来自斯坦福 NLP 的开创性框架。DSPy 彻底改变了 AI 系统的构建和优化方式。它诞生于对复合语言模型系统的研究,已通过 Haize Labs 的自动化红队测试系统[2]和 Replit 的代码修复解决方案[3]等应用成功实施证明了其多功能性。该框架的声明式编程模型通过基于签名的开发专注于"做什么"而非"怎么做",而其模块系统提供了如 ChainOfThought[4]等结构化组件用于推理。DSPy 的内置优化框架支持自动少样本示例生成和自我改进提示,使其在市场解析等复杂决策任务中特别有效。
我们架构的三个核心组件利用了这些 DSPy 功能,如下图所示:
基于大语言模型的预言机使用 DSPy 的功能
问题转换模块:问题转换模块利用思维链推理将市场查询转换为时间精确、内容丰富的格式,从而优化信息检索。这使 AI 代理能够确保获得关键市场解析的背景条件,同时确保所有输入问题处理的一致性。
信息收集模块:信息收集模块通过 Perplexity 或 Google's Gemini 进行全面的网页抓取,为可验证的信息处理建立基础。通过收集完整网页内容而不是依赖由 API 提供的摘录,我们建立了可靠的数据源并保持了信息收集过程的完全透明度。提取的内容作为事实提取模块的基础上下文,我们的系统对信息基础和上下文定位保持精确控制——这已被证明可以减少幻觉并提高模型性能[5,6]。这种方法确保每个市场解析查询都是完全透明的,并牢固地建立在可验证的来源上。
事实提取模块: 事实提取模块作为系统的分析核心,运用推理来处理收集到的信息并确定最终市场结果。通过可见的推理链,它维持了一个透明的决策过程,可与上下文一起被审计和验证。该模块的结构化方法确保了跨市场类型的评估一致性,同时为每个解析决策提供了详细的推理。
质量控制和评估
我们严格的评估框架结合了全面的数据验证和系统化的测试协议。我们从 Polymarket 的 API 精心策划了测试数据集,选择交易量超过 10 万美元的高风险市场以确保有意义的结果。每个市场都经过了彻底的预处理,包括问题索引和解析结果的验证,为我们的实证分析打下坚实的基础。
评估流程通过 DSPy 的评估框架实施自动化准确性评估,采用精确匹配验证来验证答案。每个市场解析遵循多阶段验证过程:初始数据验证、来源验证和结果确认。这种有序的方法使我们能够成功处理和验证 1,660 个真实预测市场结果,创建了一个真实且可靠的分析数据集。
为确保透明度和可复现性,我们的系统保留了每次评估的详细记录,包括全面的推理轨迹和模型元数据。这些结果被永久存储,允许对我们的发现进行彻底分析和验证。
实证测试与见解
实证测试表明,AI 预言机应用在现实世界场景中具有令人期待的能力。实证测试展示了系统在验证现实世界事件和结果方面的能力。使用 GPT-4o,我们的系统在各种验证场景中实现了 89.30% 的总体准确率。按事件类别分类:与体育相关的验证达到了最高的准确率 99.7%,其次是加密货币事件(85.0%)和政治结果(84.3%)。该系统在离散事件验证方面表现出特别的优势,这些事件有明确的官方真实来源。
成功的案例包括确定 NFL 比赛的胜者,系统正确处理了官方比赛统计数据、赛后报告和经过验证的新闻来源,得出了准确结论。相比之下,该系统在加密货币和政治类别中显示出较低的准确性,特别是在处理复杂的财务阈值或时间边界不太明确的持续政治事件发展时。
这些初步结果表明,在保持系统化验证过程的同时,复杂市场解析具有潜在的可行性。
主要观点
分析评估结果揭示了关于 LLM 如何处理时间信息的重要见解。我们的初始评估结果显示,问题框架显著影响系统性能,这似乎源自 LLM 处理时间信息的基本限制。实证证据表明,这些模型缺乏可靠的时间认知——具体来说,它们在理解相对时间概念和从信息创建到验证事件的时间间隔等方面存在困难。虽然具有明确结果和容易获取官方来源的离散事件可以以很高的准确性被验证(如体育比赛所见),但模型在涉及持续监测或复杂时间关系的场景仍然面临持续的挑战。当处理包含混合参考时间或需要理解时间顺序关系的网络信息时,系统会产生混淆。
通过重构查询以提供明确的时间框架和清晰的时间锚点,我们观察到系统准确性的一致改进。问题转换模块构建时间精确查询的能力似乎弥补了模型在时间推理方面的固有局限,为信息处理和验证提供了更清晰的上下文。在我们的测试中,与基线测试相比,通过时间标准化处理的问题在模型将其响应基于正确时间框架的能力方面显示出显著改善。这一发现表明,虽然当前的 LLM 可能缺乏固有的时间认知,但精心构建的输入可以帮助缓解这些局限。
在检查系统遇到挑战的案例时,系统在涉及时间推理的问题上表现出了相似的局限性——特别是在验证连续事件或跟踪随时间变化的陈述时。例如,系统在处理以下问题时遇到困难:
这两个案例分别需要时间聚合和事件精确时间顺序。这些困难与 LLM 在处理时间依赖和时间顺序关系方面缺陷的普遍观点相一致[7]。
这些发现表明当前 AI 预言机系统存在几个基本挑战。首先,互联网上信息的呈现方式与 AI 系统处理信息的方式之间似乎存在不匹配。例如,文本内容可能以视频字幕格式提供,需要从视频中转录,或者在更广泛的文章中呈现,这些文章优先考虑叙事流畅而非数据的结构化。
此外,互联网上可用的信息往往面向人类的兴趣模式,而非 AI 分析的需求。新闻文章和公共内容很少关注定量信息,如单词频率计数或相关事件的精确时间顺序,因为这些通常不是人类读者感兴趣的内容。当 AI 系统需要验证特定时间声明或聚合历史数据点时,这就创造了重大挑战。
未来方向
基于这些实证发现,我们的研究提出了几个有希望的改进途径。我们正在探索如何从根本上改进对语言模型本身的查询方式。受到像 Baleen[8]这样的高级系统的启发,我们设想的查询不仅仅是简单的转换,还要有意识的纳入丰富的上下文。这种方法将把关键元素如时间锚点、验证要求和市场特定上下文——直接嵌入到查询结构中,可能提高信息检索精度和整体系统准确性[9]。
同时,我们的可扩展架构提供了通过利用去中心化预言机网络(DON)增强输出可靠性的机会。通过将系统分布在 DON 上,我们将能够实现多重独立验证 -- 每个都基于不同来源并利用不同推理模型——通过经过验证的共识协议进行聚合。这样的方法可能会在准确性至关重要的高风险场景中显著提高可靠性和一致性。
同时,我们认识到一个基本挑战:随着语言模型的发展,它们越来越共享重合的训练数据集,并可能表现出相似的偏见。这一观察使我们质疑仅仅通过共识机制——简单地聚合不同模型的输出 -- 是否能有效地减轻这些偏见。
因此,我们认为在静态的"认证来源"列表之外,还需要动态的来源可信度系统。该系统将实时评估和排名信息来源,考虑从国家到文化边界的多样化视角。我们相信,一成不变的信息来源可能无法经受时间的考验,特别是在我们目前快速发展的信息环境中。
结论
我们的实证测试为不断发展的 AI 预言机领域提供了有价值的数据点。在 1,660 个真实案例中达到 89% 的准确率,展示了目前 LLM 的能力,同时分析了需要继续发展的具体领域。我们不仅仅依靠模型共识,还在开发复杂的上下文感知查询理解技术,这些技术将保持时间精确性,同时增强信息检索准确性。这种架构灵活性,加上我们的实证验证方法,使我们能够很好地持续增强系统能力,同时保持其生产可靠性。
—
[1]: DSPy: From Stanford NLP research (Feb 2022) to a community-driven framework with over 250 contributors. https://dspy.ai/
[2]: “Red-Teaming Language Models with DSPy”, Haize Labs Blog (2024). A comprehensive implementation demonstrating DSPy’s effectiveness in automated system evaluation. https://blog.haizelabs.com/posts/dspy/
[3]: “Replit Code Repair with Language Models”, Replit Blog (2024). Production implementation of DSPy for automated code analysis and repair. https://blog.replit.com/code-repair
[4]: Wei, J., Wang, X., Schuurmans, D., et al. (2022). “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.” arXiv:2201.11903v6. Demonstrated that providing intermediate reasoning steps significantly improves performance on complex tasks.
[5]: Philip Feldman and James R. Foulds and Shimei Pan, “Trapping LLM Hallucinations Using Tagged Context Prompts”, arXiv:2306.06085 (2023). Demonstrated that providing explicit context tags significantly reduces hallucinations in large language models.
[6]: Introducing Citations on the Anthropic API (Jan 2025). https://www.anthropic.com/news/introducing-citations-api
[7]: “TempLM: Temporal Reasoning in Large Language Models”, arXiv:2406.09170v1 (2024). Comprehensive analysis of temporal reasoning limitations in current LLM architectures.
[8]: Khattab, O., Potts, C., & Zaharia, M. (2021). “Baleen: Robust Multi-Hop Reasoning at Scale via Condensed Retrieval.” NeurIPS 2021 (Spotlight). arXiv:2101.00436v3.
[9]: Philip Feldman and James R. Foulds and Shimei Pan, “Trapping LLM Hallucinations Using Tagged Context Prompts”, arXiv:2306.06085 (2023). Demonstrated that providing explicit context tags significantly reduces hallucinations in large language models.
▲获取 Chainlink 官方最新资讯
加入 Chainlink 官方渠道▼
了解及集成 Chainlink 预言机服务请联系▼
点击“阅读原文” 查看更多
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。