o3 来了，通用人工智能真的触手可及吗？

2025-01-06 17:55

巴比特

2025-01-06 17:55

来源链接

订阅此专栏

收藏此文章

图片来源：由无界 AI 生成

"机器究竟还需要多长时间，才能真正具备人类大脑的认知能力？"这个困扰人工智能领域数十年的根本性问题，在 2024 年末再次成为全球科技界的焦点。

当人工智能在图像识别、自然语言处理等特定领域不断突破时，一个更具挑战性的目标始终若即若离：让机器获得举一反三的洞察力、抽象概念的推理能力，以及如同人类一般规划和调配认知资源的能力。

就在这场关于机器智能极限的持续争辩中，OpenAI 最近发布的新型人工智能系统，为这个传统命题注入了新的变数。这家总部位于旧金山、因开发 ChatGPT 而声名鹊起的 AI 巨头，于 9 月发布了被称为 O1 的新一代大型语言模型（LLM）系统。而就在本月，业内又传出 OpenAI 正在开发代号为 O3 的更强大系统，这个被称为“通用人工智能（AGI）前奏”的项目引发了新一轮关注。与以往的 AI 模型相比，从 O1 到 O3 的技术路线都展现出了一种更接近人类认知方式的运行机制，这些突破性进展正在重新定义我们对人工智能潜力的认知。

AGI 一旦实现，可能为人类带来前所未有的突破：从气候变化的治理，到流行病的防控，再到癌症、阿尔茨海默病等顽疾的攻克。然而，这样巨大的力量也可能带来不确定性，并对人类构成潜在风险。加拿大蒙特利尔大学深度学习研究员 Yoshua Bengio 表示：“人类对 AI 的误用或失控，都可能导致严重后果。”

近年来 LLM 的革命性进展激发了关于 AGI 或许即将到来的种种猜测。但一些研究人员表示，考虑到 LLM 的构建和训练方式，它们单靠自身不足以实现 AGI，“仍然缺少一些关键部分。”

毫无疑问，关于 AGI 的问题如今比以往任何时候都更加紧迫和重要。“我大半生都认为，谈论 AGI 的人是不合常规的，”亚利桑那州立大学的计算机科学家 Subbarao Kambhampati 说，“但如今，每个人都在谈论它。你不能称所有人都‘不合常规’了。”

AGI 辩论为何转向

“通用人工智能”（AGI）这一术语大约在 2007 年首次进入主流视野，当时它作为同名书籍的标题由 AI 研究人员 Ben Goertzel 和 Cassio Pennachin 推出。虽然这一术语的确切含义尚不明确，但通常指代具有类似人类推理和泛化能力的 AI 系统。在人工智能发展的大部分历史中，人们普遍认为 AGI 仍然是一个尚未实现的目标。例如，谷歌 DeepMind 开发的 AlphaGo 程序专为围棋对弈而设计。它在围棋领域击败了顶尖的人类棋手，但其超人能力仅限于围棋，也就是说，这是它唯一的擅长领域。

LLM[1]的新能力正在彻底改变这一局面。与人类大脑一样，LLM 拥有广泛的能力，这使得一些研究人员认真考虑某种形式的通用人工智能可能即将到来[1]，甚至已经存在。

当你考虑到研究人员仅部分了解 LLM 如何实现这一目标时，这种能力的广度更加令人震惊。LLM 是一种神经网络，其灵感大致来源于人脑。它由分层排列的人工神经元（或计算单元）组成，这些层与层之间的连接强度通过可调参数表示。在训练过程中，强大的 LLM——例如 o1、Claude（Anthropic 公司开发）以及谷歌的 Gemini——依赖一种称为“下一个词元预测（next token prediction)”的方法。在该方法中，模型会重复输入已被分割的文本样本（即词元块）。这些词元可以是整个单词或只是一组字符。序列中的最后一个词元被隐藏或“屏蔽”，并要求模型对其进行预测。然后，训练算法将预测与屏蔽词元进行比较，并调整模型的参数，使其下次能够做出更好的预测。

这一过程不断重复——通常使用数十亿对话片段、科学文本和编程代码——直到模型能够可靠地预测隐藏的词元。在此阶段，模型参数已捕捉到训练数据的统计结构及其中包含的知识。随后参数被固定，模型使用它们对新的查询或“提示”生成预测，这些提示不一定在其训练数据中出现过，这一过程被称为“推理”。

一种称为“Transformer”的神经网络架构的使用，使 LLM 的能力显著超越了之前的成就。Transformer 使得模型能够学习到某些词元对其他词元有特别强的影响力，即使它们在文本样本中相距甚远。这使得 LLM 能够以看似模仿人类的方式解析语言——例如，区分以下句子中“bank”一词的两种含义：“当河岸（bank）泛滥时，洪水损坏了银行（bank）的 ATM，导致无法取款。”

这种方法在多种应用场景中取得了显著成果，例如生成计算机程序来解决用自然语言描述的问题、总结学术文章和回答数学问题。

随着 LLM 规模的增大，一些新的能力也随之出现——如果 LLM 足够大，AGI 也可能出现。其中一个例子是“思维链（CoT）提示”。这种方法包括向 LLM 示范如何将复杂问题分解为更小的步骤加以解决，或直接提示其按步骤解答问题。然而，对于较小规模的 LLM，这一过程并不具备显著的效果。

LLM 的能力边界

根据 OpenAI 的介绍，“CoT 提示”已被整合到 o1 的运行机制中，成为其强大功能的核心组成部分。谷歌前 AI 研究员 Francois Chollet 指出，o1 配备了一个 CoT 生成器，该生成器能够针对用户查询生成大量 CoT 提示，并通过特定机制筛选出最佳提示。

在训练中，o1 不仅学习如何预测下一个词元，还掌握了针对特定查询选择最佳 CoT 提示的能力。OpenAI 表示，正是得益于 CoT 推理的引入，o1-preview（o1 的高级版本）在国际数学奥林匹克竞赛（一项面向高中生的全球知名数学赛事）的预选考试中正确解决了 83% 的问题。相比之下，OpenAI 此前最强大的模型 GPT-4o 在同一考试中的正确率仅为 13%。

然而，尽管 o1 的复杂性令人瞩目，Kambhampati 和 Chollet 均认为，它仍存在明显的局限性，并未达到 AGI 的标准。

例如，在需要多步规划的任务中，Kambhampati 的团队发现，虽然 o1 在最多 16 步的规划任务中表现优异，但当任务复杂度增加至 20 至 40 步时，其性能迅速下降[2]。

Chollet 在挑战 o1-preview 时也发现了类似的局限性。他设计了一项抽象推理与泛化测试，以评估通往 AGI 的发展进程。测试采用视觉谜题的形式，解决这些问题需要查看示例来推断出抽象规则，并以此来解决类似新问题。结果显示，人类显然更容易做到。Chollet 进一步指出：“LLM 无法真正适应新事物，因为他们基本上没有能力将自己掌握的知识，动态地进行复杂的重组，以适应新的环境。”

LLM 能否迈向 AGI？

那么，LLM 是否有能力最终迈向 AGI 呢？

值得注意的是，底层的 Transformer 架构不仅能够处理文本，还适用于其他类型的信息（如图像和音频），前提是可以为这些数据设计合适的词元化方法。纽约大学研究机器学习的 Andrew Wilson 及其团队指出，这可能与不同类型数据共享的一个特性有关：这些数据集的“Kolmogorov 复杂度”较低，即生成这些数据所需的最短计算机程序的长度较短[3]。

研究还发现，Transformer 在学习低 Kolmogorov 复杂度的数据模式方面表现尤为出色，而这种能力会随着模型规模的增大而不断增强。Transformer 具备对多种可能性进行建模的能力，这提升了训练算法发现问题的适当解决方案的概率，而这种“表现力”会随着模型规模的增长进一步增强。Wilson 表示，这些是“通用学习所需的一些关键要素”。

尽管 Wilson 认为 AGI 目前仍遥不可及，但他表示，使用 Transformer 架构的 LLM 和其他 AI 系统已具备一些类似 AGI 行为的关键特性。

然而，基于 Transformer 的 LLM 也显现出一些固有的局限性。

首先，训练模型所需的数据资源正在逐渐枯竭。专注于 AI 趋势研究的旧金山 EpochAI 研究所估计[4]，公开可用的训练文本数据集可能会在 2026 年至 2032 年之间耗尽。

此外，尽管 LLM 的规模不断增大，其性能提升的幅度却不及以往。尚不明确这是否与数据中新颖性减少有关（因为大部分数据已被使用过），或是源于其他未知原因。后者对 LLM 来说是个坏兆头。

Google DeepMind 的伦敦研究副总裁 RaiaHadsell 提出了另一项质疑。她指出，尽管基于 Transformer 的 LLM 具备强大功能，其单一的目标——预测下一个词元——过于局限，难以实现真正的 AGI。她建议，构建能够一次性或以整体方式生成解决方案的模型，可能更接近实现 AGI 的可能。用于构建此类模型的算法已在一些现有的非 LLM 系统中得以应用，例如 OpenAI 的 DALL-E，该系统能够根据自然语言描述生成逼真甚至超现实的图像。然而，这些系统无法与 LLM 的广泛功能相媲美。

构建 AI 的世界模型

关于如何推动 AGI 发展的突破性技术，神经科学家的提供了直觉性的重要启示。他们认为，人类智能的根源在于大脑能够构建一个“世界模型”，即对周围环境的内部表征。这种模型能够模拟不同的行动方案并预测其后果，从而支持规划与推理。此外，通过模拟多种场景，这种模型可以将特定领域中学到的技能泛化到全新任务中。

一些研究报告声称，已有证据表明 LLM 内部可能形成了初步的世界模型。在一项研究中[5]，麻省理工学院的 Wes Gurnee 和 Max Tegmark 发现，当 LLM 使用包含世界多地信息的数据集进行训练时，随着广泛应用，LLM 能够在内部对周围世界形成相应的表征。然而，其他研究人员指出，目前尚无证据表明这些 LLM 利用世界作为模型进行模拟或因果关系学习。

在另一项研究中[6]，哈佛大学计算机科学家 KennethLi 及其同事发现，一个小型 LLM 在使用玩家在下 Othello 棋时的步法作为训练数据后，学会了内部表征棋盘状态的能力，并利用这种表征正确预测了下一步的合法棋步。

然而，其他研究表明，当今 AI 系统构建的世界模型可能并不可靠。在一项研究中[7]，哈佛大学的计算机科学家 Keyon Vafa 及其团队使用纽约市出租车行程的转弯数据集训练了一个基于 Transformer 的模型，该模型以接近 100% 的准确率完成了任务。通过分析模型生成的转弯序列，研究人员发现模型依赖一个内部地图来完成预测。然而，这个内部地图与曼哈顿的实际地图几乎毫无相似之处。

▷AI 的不可能的街道. 图源：[7]

Vafa 指出，“该地图包含物理上不可能的街道方向，以及跨越其他街道的高架道路。”当研究人员调整测试数据，加入训练数据中未出现的意外绕道时，模型无法预测下一次转弯，表明其对新情境的适应能力较弱。

反馈的重要性

GoogleDeepMind 位于加利福尼亚山景城的 AGI 研究团队成员 DileepGeorge 指出，当今的 LLM 缺乏一个关键特性：内部反馈。人类大脑具有广泛的反馈连接，使信息能够在神经元层之间实现双向流动。这种机制使感官系统的信息可以流向大脑的高级层，以创建反映环境的世界模型。同时，世界模型的信息也可以向下传播，引导进一步感官信息的获取。这种双向过程对感知至关重要，例如，大脑利用世界模型推断感官输入的潜在原因。此外，这些过程还支持规划，利用世界模型模拟不同的行动方案。

然而，目前的 LLM 仅能以附加方式使用反馈。例如，在 o1 中，内部的 CoT 提示机制，通过生成提示协助回答查询，并在最终生成答案前反馈给 LLM。但正如 Chollet 的测试所显示，这种机制并不能确保抽象推理能力的可靠性。

Kambhampati 等研究人员尝试为 LLM 添加一种称为验证器的外部模块。这些模块在特定上下文中检查 LLM 生成的答案，例如验证旅行计划的可行性。如果答案不够完善，验证器会要求 LLM 重新运行查询[8]。Kambhampati 的团队发现，借助外部验证器的 LLM，在生成旅行计划时表现显著优于普通 LLM，但是研究人员需要为每个任务设计专门的验证器。“没有通用验证器，”Kambhampati 指出。相比之下，AGI 系统可能需要自主构建验证器，以适应不同情境，就像人类利用抽象规则确保在新任务中进行正确推理一样。

基于这些想法开发新型 AI 系统的研究仍在初步阶段。例如，Bengio 正在探索如何构建不同于当前基于 Transformer 架构的 AI 系统。他提出了一种被称为“生成流网络（generative flow networks）”的方法，旨在使单一 AI 系统既能构建世界模型，又能利用这些模型完成推理与规划。

LLM 面临的另一个重大障碍是其对数据的巨大需求。伦敦大学学院理论神经科学家 Karl Friston 提出，未来的 AI 系统可通过自主决定从环境中采样数据的数量来提高效率，而非简单地摄取所有可用数据。他认为，这种自主性可能是 AGI 所必需的。“在当前的大型语言模型或生成式 AI 中，尚无法体现这种真正的自主性。如果某种 AI 能够实现一定程度的自主选择，我认为这将是迈向 AGI 的关键一步。”

能够构建有效世界模型并集成反馈回路的 AI 系统，可能会显著减少对外部数据的依赖。这些系统能够通过运行内部模拟，提出反事实假设，并借此实现理解、推理与规划。例如，2018 年，研究人员 DavidHa 和 Jürgen Schmidhuber 报告[9]，他们开发了一种神经网络，该网络可高效构建人工环境的世界模型，并利用此模型训练 AI 驾驶虚拟赛车。

如果你对这种自主性 AI 系统的概念感到不安，你并不是一个人。除了研究如何构建 AGI，Bengio 还积极倡导在 AI 系统的设计和监管中引入安全性。他认为，研究应关注训练能够保证自身行为安全的模型，例如建立机制来计算模型违反某些特定安全约束的概率，并在概率过高时拒绝采取行动。此外，政府需要确保 AI 的安全使用。“我们需要一个民主过程来确保个人、公司甚至军方，以对公众安全的方式使用和开发 AI。”

那么，实现 AGI 是否可能？计算机科学家认为没有理由不这样认为。“没有理论上的障碍，”George 说。圣达菲研究所 (Santa FeInstitute) 的计算机科学家 Melanie Mitchell 表示同意：“人类和一些其他动物已经证明这一点是可行的。在原理上，我认为生物系统与由其他材料制成的系统之间不存在任何特别的差异，能够阻止非生物系统变得智能。”

尽管如此，对于 AGI 的实现时间，学术界仍然缺乏共识：预测范围从几年之内到至少十年以后。George 指出，如果 AGI 系统被创造出来，我们将通过其行为表现来确认其存在。而 Chollet 则怀疑它的到来会非常低调：“当 AGI 到来时，它可能不会像你想象的那样显而易见或掀动风浪。AGI 的全面潜力需要时间逐步显现。它将首先被发明，然后经过扩展和应用，最终才会真正改变世界。”

原文链接：

https://www.nature.com/articles/d41586-024-03905-1

中国 AIGC 产业应用峰会回顾

2024 年 1 月 5 日，【智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会】在杭州未来科技城会议中心举行。

大会汇集行业资深专家及领军企业，共同聚焦 AIGC 领域，围绕当下热点话题进行深度延展，探讨行业激烈竞争下的运营新思路、发展新模式！点击文章，回顾精彩内容~