您的位置 首页 科技

OpenAI发布最强推理模型o3,压力给到DeepSeek了?

出品 | 搜狐科技作者 | 梁昌均OpenAI继续放大招!4月17日凌晨,OpenAI发布了最新推理模型o3和o4-mini,成为o1和o3-mini的最新替代模型,许久未公开露面的OpenAI总裁格雷格·布罗克曼坐镇发布会。

出品 | 搜狐科技

作者 | 梁昌均

OpenAI继续放大招!4月17日凌晨,OpenAI发布了最新推理模型o3和o4-mini,成为o1和o3-mini的最新替代模型,许久未公开露面的OpenAI总裁格雷格·布罗克曼坐镇发布会。

OpenAI表示,经过训练,最新模型会在响应之前思考更长时间。“这是我们迄今为止发布的最智能的模型,代表了ChatGPT能力的重大变化。”

该公司CEO山姆·奥特曼发文表示,这是“天才水平”。与之前的推理模型相比,最新模型除了性能全面提升,图像推理能力实现突破,还首次让其具备了自主调用工具的能力。

这是OpenAI多次调整模型发布后的最新动作,从最初计划推理和GPT融合推出GPT-5,到因技术难度依然选择分开发布,OpenAI要在这两个方向上继续突破。

毫无疑问,这也意味着,目前已是模型技术竞争焦点之一的推理模型,仍有提升空间。OpenAI依然居于领先地位,这或许也会推动DeepSeek等竞争者加速追赶。

最强大的推理模型,数学、编程等能力大超DeepSeek

先来看看这两款模型的基本性能。o3已取代o1成为OpenAI最强大的推理模型,其在编程、数学、科学、视觉感知等方面实现突破。

OpenAI发布最强推理模型o3,压力给到DeepSeek了?

展开全文

根据OpenAI的测试,o3在包括 Codeforces(编程)、SWE-bench(真实世界的软件工程评测基准)和MMMU(大规模多学科多模态理解和推理)等主流基准实现了SOTA(最先进水平),同时在分析图像、图表等可视化任务方面表现出色。

同时,在外部专家的评估中,o3 在困难的现实任务上犯的重大错误比 o1减少20%,尤其是在编程、商业/咨询和创意构思等领域,非常适合需要多维分析的复杂查询。

OpenAI发布最强推理模型o3,压力给到DeepSeek了?

o4-mini是一种较小的模型,相对o3更加高效和经济,兼顾了性能和成本,基本在所有任务上都优于其前身o3-mini,并在数学、编码和视觉任务方面表现同样出色,是在AIME 2024和2025(美国数学竞赛)上表现最好的模型。相较o3,o4-mini更适合需要推理高频、高吞吐量的场景和任务。

搜狐科技对比发现,在AIME2024、GPQA-Diamond(化学、物理和生物等多学科)、SWE-bench等基本相同的基准测试上,o3和o4-mini的表现已经大幅超越DeepSeek-R1模型。

OpenAI发布最强推理模型o3,压力给到DeepSeek了?OpenAI和DeepSeek推理模型相同基准测试得分(%)

Scaling Law并未消失,推理模型也会调用工具

OpenAI还在训练o3的过程中发现,大规模强化学习(RL)呈现出与GPT系列预训练相同的规律,即更多的计算量,会带来更强的性能,同时模型思考时间越久,表现也会越好。

OpenAI表示,通过追溯扩展路径,在训练计算和推理时间方面都增加了一个数量级后,看到了明显的性能提升。同时,在与o1相同的延迟和成本条件下,o3在ChatGPT中呈现出更好的表现。

“我们已经验证,如果我们让它思考更长时间,它的性能会不断攀升。”OpenAI表示。这意味着,深度推理模型在利用强化学习扩展时,依然遵循所谓的Scaling Law,同时遵循推理时间法则,这会共同影响模型的性能提升。

此外,OpenAI还通过强化学习训练这两款模型如何使用工具,让它们学会判断何时使用工具,从而在开放式任务重表现出色,尤其是涉及视觉推理和多步骤工作流的任务。

在OpenAI的演示中,最新模型可以对图像进行推理思考,这是首次用思维链对图像进行处理。“这解锁了新的问题解决方式,它融合了视觉和文本推理。”

用户可以上传照片、图表或手绘草图,模型能够对其进行解释,同时模型还能借助工具,动态地处理图像,比如旋转、缩放或格式转换,作为其推理过程的一部分。比如演示中能识别出最大的船只,并表示因部分内容模糊建议放大处理。

OpenAI发布最强推理模型o3,压力给到DeepSeek了?

和之前的模型不同的是,o3和o4-mini第一次实现可以自主调用和组合ChatGPT中的所有工具,包括搜索网络、使用Python分析上传的文件和数据、对视觉输入进行深入推理,甚至生成图像。

至关重要的是,这些模型经过训练,还可以推理何时以及如何使用这些工具,从而以正确的输出格式,生成详细而深思熟虑的答案,并通常在一分钟内,就能解决更复杂的问题。

“这使模型能够更有效地解决多步骤的问题,这是ChatGPT朝着可以独立执行任务、更具代理性的方向迈出的一步。”OpenAI表示,最先进的推理模型和工具相结合,在智能和实用性方面树立了新标准。

OpenAI的示例显示,o3在推理过程中可以根据获取的信息随时调整,不断调整搜索策略,提供更多数据驱动和更具战略洞察力的计划,使模型能够完成那些超出其内部知识、需要实时信息、跨模态推理与综合输出的复杂任务。不过,o3的推理时间往往也会更长,部分任务接近3分钟。

从这个角度看,o3颇有点Agent(智能体)的味道了。根据OpenAI对AI的分级,L1是ChatBot,L2是推理,L3是Agent,而o3则是推理模型+工具调用,从而帮助用户执行更为复杂的任务。

更智能成本更低,但价格仍是DeepSeek的18倍

o3和o4-mini是OpenAI目前最智能的模型,比前身o1和o3-mini也更高效,同时成本也更低。比如,在2025 AIME数学竞赛中,o3和o4-mini的性价比分别远高于o1和o3-mini。

OpenAI发布最强推理模型o3,压力给到DeepSeek了?

这也使得最新模型的价格有了下降可能。o3的输入价格为10美元/百万tokens,缓存输入为2.5美元,输出价格为40美元/百万tokens,比o1便宜33%。

o4-mini的输入价格为1.1美元/百万tokens,缓存输入为0.275美元,输出价格为4.4美元/百万tokens,和o3-mini相似。但最新模型依然要比DeepSeek-R1贵出不少,如o3的输入价格和输出价格都是R1的18倍。

OpenAI发布最强推理模型o3,压力给到DeepSeek了?推理模型API价格对比(R1单位为人民币/百万tokens,其余为美元)

从今天开始,ChatGPT Plus、Pro和Team付费用户将能使用o3、o4-mini和o4-mini-high,免费用户可以点击 Think按钮,尝试o4-mini的推理能力。OpenAI还计划,未来几周推出支持全部工具功能的o3-pro。

此外,OpenAI还发布开源了一款轻量级的编程智能体——Codex CLI,其专为最大化o3和o4-mini等模型的推理能力而设计,并将支持GPT-4.1等模型。这也是OpenAI在反思闭源策略后,在开源上做出的一点点改进。

对于最新推理模型的发展,OpenAI也表示,目前还存在一些缺陷,比如模型可能会执行冗余或不必要的工具调用和图像处理步骤,导致过长的思维链,同时模型在推理过程中仍然会犯感知错误,以及多次尝试视觉推理的可靠性还有待提高。

从不少用户的实测反馈来看,o3模型还存在严重的虚假事实捏造现象,幻觉问题依然是老大难。但显然,从OpenAI的研究来看,推理模型仍然还有很大的性能提升空间,而对比DeepSeek来看,成本方面也有下降潜力。

从o1正式版发布到o3,OpenAI大概花了四个多月时间,跳过o2是为了避免跟同名公司出现商标侵权。对标o1的DeepSeek-R1则是在今年1月下旬发布,按照类似节奏,R2可能最快5月份就能见到。

这一场推理模型的技术竞赛,依然还有好戏值得期待。

本文来自网络,不代表冰河马新闻网立场,转载请注明出处:http://lcvt.cn/23942.html

作者: wczz1314

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部