OpenAI 重磅推出全新模型 o3 与 o4-mini，实力超越 99% 人类

2025-04-17 16:37

元宇宙之心

2025-04-17 16:37

来源链接

订阅此专栏

收藏此文章

‍‍‍‍

OpenAI 刚刚宣布将逐步上线两款新型推理模型——o3 与 o4-mini。这两款模型主打通过强化测试阶段的计算能力，同时深度整合各类外部工具。

OpenAI 总裁 Greg Brockman 在发布会上表示：“这些模型标志着 AI 发展的质变，今天的发布无疑是向前迈进的重要一步。”他进一步透露，顶尖科研人员反馈，o3 与 o4-mini 能输出真正具备实用价值的创新思路。

Brockman 强调，这不仅是模型迭代，更是“AI 系统”的进化。其设计初衷是利用外部工具进行复杂的交互和解决问题。

rockman 强调，这不仅是模型迭代，更是“AI 系统”的进化。其设计初衷是利用外部工具进行复杂的交互和解决问题。

“我们训练它们在思维链中使用工具，”Brockman 解释道，他还举例，“面对高难度任务时，o3 曾连续调用 600 次工具完成推理闭环。”数据显示，o3 在编程、数学、科学及视觉处理等核心领域刷新最优成绩；而 o4-mini 主打轻量化，并针对速度和成本进行了优化。

AI 领域知名评论人“AI Explained”在 YouTube 新发布的测评视频中点评：“和前代 o1 相比，这两款模型的进步肉眼可见。o3 的表现确实堪称行业标杆级突破。”视频既肯定了本次更新，也从专业视角给出理性分析。

值得关注的是，o3 与 o4-mini 均支持图像直接参与推理，并可实时调用 Python 编程、网页搜索、自定义函数等工具。Brockman 尤其感慨：“如今这些模型在解析 OpenAI 内部代码时，表现甚至比我更得心应手，极大提升了开发效率。”

01.

在实际应用中的工具使用

OpenAI 的研究主管 Mark Chen 在发布直播中详细阐述了为什么工具访问如此重要。

他认为：“将推理模型与工具相结合，能让它们变得更智能。”他还打了个比方：“这就好比计算器有助于进行算术运算，地图有助于导航一样。”

Mark Chen 还表示：“把 o 系列模型与我们的全套工具相结合，能在高难度基准测试中达到最先进的水平。”

“AI Explained”似乎也认同这种方法，并在分析中指出：“这两款模型都是从底层开始就被训练使用工具的，我觉得这是一种非常出色的改进，它们会很快变得更加实用。”

对于工具集成重要性的这种一致看法，表明在这一发展路径上，行业正逐渐达成共识。

Mark Chen 补充道：“工具还解锁了新功能，模型现在可以结合图像进行思考。”

模型可以调用 Python 代码“在服务端对图像进行裁剪或变换”，这意味着用户可以上传模糊、颠倒或复杂的图片，然后由模型来处理这些图片。

在直播过程中，OpenAI 的技术人员 Brandon McKinzie 通过回顾一个 2015 年的物理海报项目展示了这一点。

他解释了 o3 是如何进行复杂分析的：“o3 进行缩放操作，找到相关图表，推断出斜率与物理夸克质量的关系，对数据进行归一化处理，然后查询最新的论文以获取更新后的估算值。这节省了人工数天的工作量。”

研究人员 Wenda Li 补充说，“为了实现这一点，该模型会主动浏览代码，使用常见的终端工具：列出文件，用 `sed` 命令打开文件，试图找到它要找的内容。它甚至能识别代码中的继承问题，在应用补丁并运行单元测试之前检查方法解析顺序（MRO），就像一个优秀的工程师那样。”

研究人员 Ananya Kumar 指出，这种复杂的、多步骤的问题解决过程并非是通过明确编程实现的，该模型 “自然而然地学会了做这些事情”，包括简化自己的初始暴力破解代码，并对结果进行双重检查。

在软件工程基准测试（SWE-bench）中，o3 平均通过 37 次容器化的 shell 交互修复了开源代码中的漏洞；有些修复甚至需要超过 100 次交互，这展示了在长时间的工具使用过程中，o3 所具备的强大能力和持久性。

02.

基准测试表现

这些模型在各个领域的基准测试中都取得了令人瞩目的成绩。

“AI Explained”特别强调了一项成就：“在大规模多任务语言理解基准测试（MMMU）中，o3 的得分达到了 82.9%。这确实比谷歌的 Gemini 2.5 Pro 的 81.7% 要高。”

这是一个重要的里程碑，标志着 OpenAI 在一项关键的多模态基准测试中超越了主要竞争对手。

“AI Explained”还提到了 o3 在他们自己的测试框架中的出色表现：“o3 是首个在我设计的基准测试 SimpleBench 的前 10 个公开问题中，能得到 6 分（满分 10）的模型，它的一些回答真的让我印象深刻。”

该分析尤其称赞了 o3 分析基准测试网站本身的能力：“它分析我的基准测试网站的方式非常特别，它还创建了一张图片，并进行了深度分析。此外，它针对基准测试本身及其局限性给出了一些非常细致入微的建议。”

03.

开发者生态系统

OpenAI 还开源了 codex-cli，演讲者 Fouad Torky 将其描述为“一个轻量级的接口，用于将我们的模型与用户及其计算机连接起来”。

他将其定位为“一个关于如何在需要的地方安全部署代码执行代理的参考实现”，它建立在像响应 API 这样的公共 API 之上，并集成了诸如思维链总结等新功能。

演讲者 Michael Kim 解释说，Codex CLI 默认以“建议模式”运行，在这种模式下“可以批准每一项[命令或编辑]”，但对于更快捷的工作流程（比如现场演示），它可以在“全自动模式”下运行。

据 Torky 介绍，还设立了一笔 100 万美元的开源信用基金，专门用于那些将 codex-cli 与最新模型相结合的项目，以“推动开源领域的前沿发展”。

04.

发布计划

Mark Chen 在直播中详细介绍了这些模型的发布时间：

从今天开始：如果用户是 Pro、Plus 或 Team 的订阅用户，将开始逐步获得对 o3、o4-mini 和 o4-mini-high 的访问权限。这些模型将取代之前的 o1 和 o3-mini 模型。

一周后：如果用户是企业版（Enterprise）或教育版（EDU）用户，需要再等一周。

o1 专业版用户：如果用户现在使用 o1 专业版并且很喜欢它，我们将推出 o3 专业版，但这需要一些时间。
API 接口：o3 和 o4-mini 模型现在已经可以通过 API 接口使用。Chen 还指出，基于 API 的工具使用端点将在未来几周内推出。

Brockman 确认了模型替换策略：“我们将用新模型替换 o1 系列模型。” 这与“AI Explained”的观察结果一致，即“这些[o3 和 o4-mini]现在是 ChatGPT 中最好的模型”，证实了它们在 OpenAI 生态系统中地位的提升。

凭借新的推理深度、更低的每令牌成本以及更强的多模态技能，o 系列模型旨在将先进的人工智能从实验室里的研究对象转变为日常科学和工程领域的实用工具。

Brockman 总结道，这些模型代表着“我们在实现通用人工智能（AGI）以造福全人类的使命中向前迈出了重要一步”。

“AI Explained”在其分析中给出了恰当的总结，他承认“o3 代表着实实在在的进步。”受到人工智能社区中一位重要评论者的赞扬，为 OpenAI 所宣称的技术进步增添了分量，尽管这些新模型的全面影响力还有待观察。

原文来源于：

1.https://www.rdworldonline.com/openai-releases-o3-a-model-that-tops-99-of-human-competitors-on-ioi-2024-and-codeforces-benchmarks/

中文内容由元宇宙之心（MetaverseHub）团队编译，如需转载请联系我们。

最新行业深度研究报告发放中！资本实验室全新发布 37 页量化报告《 2023 全球区块链应用市场暨产业图谱报告（2023） 》，收录 1000+ 应用案例，探索区块链应用趋势， 入群即可免费领取 。

XIN 科技周刊（4.5-4.11）

AI 续写《猫和老鼠》

精彩继续

GPT-4.1 三款产品齐发！成本暴降 26%，百万 token 只需 0.12 美元

全球调查显示：超半数高中生认为 AI 有助于缓解数学焦虑

斯坦福 2025 年 AI 指数报告：10 张图表看懂人工智能发展现状

来源链接

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

数据请求中

在 App 打开

GPT-4.1 三款产品齐发！成本暴降 26%，百万 token 只需 0.12 美元

推荐专栏