您的位置首页科技

OpenAI发布最强推理模型o3，压力给到DeepSeek了？

wczz1314 2025年4月17日 15:40 阅读(54) 评论(0)

出品 | 搜狐科技作者 | 梁昌均OpenAI继续放大招！4月17日凌晨，OpenAI发布了最新推理模型o3和o4-mini，成为o1和o3-mini的最新替代模型，许久未公开露面的OpenAI总裁格雷格·布罗克曼坐镇发布会。

出品 | 搜狐科技

作者 | 梁昌均

OpenAI继续放大招！4月17日凌晨，OpenAI发布了最新推理模型o3和o4-mini，成为o1和o3-mini的最新替代模型，许久未公开露面的OpenAI总裁格雷格·布罗克曼坐镇发布会。

OpenAI表示，经过训练，最新模型会在响应之前思考更长时间。“这是我们迄今为止发布的最智能的模型，代表了ChatGPT能力的重大变化。”

该公司CEO山姆·奥特曼发文表示，这是“天才水平”。与之前的推理模型相比，最新模型除了性能全面提升，图像推理能力实现突破，还首次让其具备了自主调用工具的能力。

这是OpenAI多次调整模型发布后的最新动作，从最初计划推理和GPT融合推出GPT-5，到因技术难度依然选择分开发布，OpenAI要在这两个方向上继续突破。

毫无疑问，这也意味着，目前已是模型技术竞争焦点之一的推理模型，仍有提升空间。OpenAI依然居于领先地位，这或许也会推动DeepSeek等竞争者加速追赶。

最强大的推理模型，数学、编程等能力大超DeepSeek

先来看看这两款模型的基本性能。o3已取代o1成为OpenAI最强大的推理模型，其在编程、数学、科学、视觉感知等方面实现突破。

OpenAI发布最强推理模型o3，压力给到DeepSeek了？

展开全文

根据OpenAI的测试，o3在包括 Codeforces（编程）、SWE-bench（真实世界的软件工程评测基准）和MMMU（大规模多学科多模态理解和推理）等主流基准实现了SOTA（最先进水平），同时在分析图像、图表等可视化任务方面表现出色。

同时，在外部专家的评估中，o3 在困难的现实任务上犯的重大错误比 o1减少20%，尤其是在编程、商业/咨询和创意构思等领域，非常适合需要多维分析的复杂查询。

OpenAI发布最强推理模型o3，压力给到DeepSeek了？

o4-mini是一种较小的模型，相对o3更加高效和经济，兼顾了性能和成本，基本在所有任务上都优于其前身o3-mini，并在数学、编码和视觉任务方面表现同样出色，是在AIME 2024和2025（美国数学竞赛）上表现最好的模型。相较o3，o4-mini更适合需要推理高频、高吞吐量的场景和任务。

搜狐科技对比发现，在AIME2024、GPQA-Diamond（化学、物理和生物等多学科）、SWE-bench等基本相同的基准测试上，o3和o4-mini的表现已经大幅超越DeepSeek-R1模型。

OpenAI发布最强推理模型o3，压力给到DeepSeek了？ OpenAI和DeepSeek推理模型相同基准测试得分（%）

Scaling Law并未消失，推理模型也会调用工具

OpenAI还在训练o3的过程中发现，大规模强化学习（RL）呈现出与GPT系列预训练相同的规律，即更多的计算量，会带来更强的性能，同时模型思考时间越久，表现也会越好。

OpenAI表示，通过追溯扩展路径，在训练计算和推理时间方面都增加了一个数量级后，看到了明显的性能提升。同时，在与o1相同的延迟和成本条件下，o3在ChatGPT中呈现出更好的表现。

“我们已经验证，如果我们让它思考更长时间，它的性能会不断攀升。”OpenAI表示。这意味着，深度推理模型在利用强化学习扩展时，依然遵循所谓的Scaling Law，同时遵循推理时间法则，这会共同影响模型的性能提升。

此外，OpenAI还通过强化学习训练这两款模型如何使用工具，让它们学会判断何时使用工具，从而在开放式任务重表现出色，尤其是涉及视觉推理和多步骤工作流的任务。

在OpenAI的演示中，最新模型可以对图像进行推理思考，这是首次用思维链对图像进行处理。“这解锁了新的问题解决方式，它融合了视觉和文本推理。”

用户可以上传照片、图表或手绘草图，模型能够对其进行解释，同时模型还能借助工具，动态地处理图像，比如旋转、缩放或格式转换，作为其推理过程的一部分。比如演示中能识别出最大的船只，并表示因部分内容模糊建议放大处理。

OpenAI发布最强推理模型o3，压力给到DeepSeek了？

和之前的模型不同的是，o3和o4-mini第一次实现可以自主调用和组合ChatGPT中的所有工具，包括搜索网络、使用Python分析上传的文件和数据、对视觉输入进行深入推理，甚至生成图像。

至关重要的是，这些模型经过训练，还可以推理何时以及如何使用这些工具，从而以正确的输出格式，生成详细而深思熟虑的答案，并通常在一分钟内，就能解决更复杂的问题。

“这使模型能够更有效地解决多步骤的问题，这是ChatGPT朝着可以独立执行任务、更具代理性的方向迈出的一步。”OpenAI表示，最先进的推理模型和工具相结合，在智能和实用性方面树立了新标准。

OpenAI的示例显示，o3在推理过程中可以根据获取的信息随时调整，不断调整搜索策略，提供更多数据驱动和更具战略洞察力的计划，使模型能够完成那些超出其内部知识、需要实时信息、跨模态推理与综合输出的复杂任务。不过，o3的推理时间往往也会更长，部分任务接近3分钟。

从这个角度看，o3颇有点Agent（智能体）的味道了。根据OpenAI对AI的分级，L1是ChatBot，L2是推理，L3是Agent，而o3则是推理模型+工具调用，从而帮助用户执行更为复杂的任务。

更智能成本更低，但价格仍是DeepSeek的18倍

o3和o4-mini是OpenAI目前最智能的模型，比前身o1和o3-mini也更高效，同时成本也更低。比如，在2025 AIME数学竞赛中，o3和o4-mini的性价比分别远高于o1和o3-mini。

OpenAI发布最强推理模型o3，压力给到DeepSeek了？

这也使得最新模型的价格有了下降可能。o3的输入价格为10美元/百万tokens，缓存输入为2.5美元，输出价格为40美元/百万tokens，比o1便宜33%。

o4-mini的输入价格为1.1美元/百万tokens，缓存输入为0.275美元，输出价格为4.4美元/百万tokens，和o3-mini相似。但最新模型依然要比DeepSeek-R1贵出不少，如o3的输入价格和输出价格都是R1的18倍。

OpenAI发布最强推理模型o3，压力给到DeepSeek了？推理模型API价格对比（R1单位为人民币/百万tokens，其余为美元）

从今天开始，ChatGPT Plus、Pro和Team付费用户将能使用o3、o4-mini和o4-mini-high，免费用户可以点击 Think按钮，尝试o4-mini的推理能力。OpenAI还计划，未来几周推出支持全部工具功能的o3-pro。

此外，OpenAI还发布开源了一款轻量级的编程智能体——Codex CLI，其专为最大化o3和o4-mini等模型的推理能力而设计，并将支持GPT-4.1等模型。这也是OpenAI在反思闭源策略后，在开源上做出的一点点改进。

对于最新推理模型的发展，OpenAI也表示，目前还存在一些缺陷，比如模型可能会执行冗余或不必要的工具调用和图像处理步骤，导致过长的思维链，同时模型在推理过程中仍然会犯感知错误，以及多次尝试视觉推理的可靠性还有待提高。

从不少用户的实测反馈来看，o3模型还存在严重的虚假事实捏造现象，幻觉问题依然是老大难。但显然，从OpenAI的研究来看，推理模型仍然还有很大的性能提升空间，而对比DeepSeek来看，成本方面也有下降潜力。

从o1正式版发布到o3，OpenAI大概花了四个多月时间，跳过o2是为了避免跟同名公司出现商标侵权。对标o1的DeepSeek-R1则是在今年1月下旬发布，按照类似节奏，R2可能最快5月份就能见到。

这一场推理模型的技术竞赛，依然还有好戏值得期待。

本文来自网络，不代表冰河马新闻网立场，转载请注明出处：http://lcvt.cn/23942.html

3赞

作者: wczz1314

发表回复取消回复