您的位置 首页 通讯

DeepSeek低调更新模型,代码和数学能力突出,有开发者直呼OpenAI和Anthropic麻烦了

出品 | 搜狐科技作者 | 梁昌均编辑 | 杨锦“好得可怕。”这是开发者在实测DeepSeek最新模型后作出的评价。

出品 | 搜狐科技

作者 | 梁昌均

编辑 | 杨锦

“好得可怕。”这是开发者在实测DeepSeek最新模型后作出的评价。

3月24日晚间,DeepSeek悄悄上线最新更新后的模型DeepSeek-V3-0324,参数为6850亿,较去年12月发布的DeepSeek-V3的6710亿参数有所增长。

根据公开信息,DeepSeek-V3-0324延续了V3的核心架构,即基于混合专家(MoE)模型设计,模型参数包括6710亿的主模型和140亿参数的MTP(多Token预测)模块。

这款模型在开源社区Hugging Face亮相,但DeepSeek并未披露模型具体信息。DeepSeek官方也仅在用户交流群进行了同步,官方渠道(公众号、X平台)等均未发布有关推文。

虽然DeepSeek保持低调,且将此次定位为小型升级,但依然在开发者社群引发不少关注。

根据多位测试者反馈来看,DeepSeek-V3-0324在编程能力、数学推理、创造性任务等方面性能有明显提升,甚至优于Claude 3. 7系列,有评价认为其是“最强非推理模型”。

代码能力进一步优化,超过Claude-3.7-Sonnet

“DeepSeek-V3-0324是最好的非推理代码模型。”有开发者实测反馈称,其编码能力已接近国际顶尖闭源模型Claude 3.7 Sonnet,尤其是在前端代码生成和复杂逻辑处理中,表现出更高的准确性与流畅性。有用户评测称,其开发网站写了800多行代码且没有出现任何错误。

在多个编程评测基准上,DeepSeek-V3-0324取得了不俗的成绩。在开源社区的KCores大模型竞技场评测中,DeepSeek-V3-0324的编码能力位居第三,仅次于Claude-3.7-Sonnet-Thinking和Claude-3.5-Sonnet,超过了Claude-3.7-Sonnet、DeepSeek-R1、OpenAI-o1。此前,Claude-3.7-Sonnet被视为代码能力最好用的模型。

展开全文

DeepSeek低调更新模型,代码和数学能力突出,有开发者直呼OpenAI和Anthropic麻烦了

在涵盖C++、Java、Python等六种流行编程语言的测试‌Aider polyglot中,这款模型得分接近R1、Claude 3.7,超过o3-mini的水平。

DeepSeek低调更新模型,代码和数学能力突出,有开发者直呼OpenAI和Anthropic麻烦了

同时,DeepSeek-V3-0324的成本也远远低于这些模型,预估仅有R1的五分之一。可以说,DeepSeek在优化性能的同时,依然在成本层面下足了功夫, 这可能与其模型架构的进一步优化调整有关。

有分析称,这得益于DeepSeek进一步降低了激活参数,从而使得响应速度提升,同时资源消耗显著降低。“免费开源,且超级快,很高兴看到这些开源模型给大公司施加压力,促使它们以更低的成本构建更好的模型。”有开发者表示。

同时,这款模式还针对数学推理进行了训练后优化。在数学能力方面,有业内人士在测试后感觉,最新版本明显加入了CoT(思维链)的训练,可以认为有点“自适应思考”的意思。“会做思考的计划、反思和总结,但是思考比较克制,结果长度比深度思考模型要短。”

DeepSeek低调更新模型,代码和数学能力突出,有开发者直呼OpenAI和Anthropic麻烦了

搜狐科技给DeepSeek-V3-0324上传了2024年高新课标考数学的前8道选择题,让其进行解答,最终结果让人震惊,全部正确!同时,它还给出了每道题的解题方法,且对稍微复杂的问题的结果还会进行验证。

DeepSeek低调更新模型,代码和数学能力突出,有开发者直呼OpenAI和Anthropic麻烦了

此前我们将前述题目用于测试ChatGPT-4o、阿里通义、字节豆包、百度文心一言、腾讯元宝、讯飞星火、智谱清言、月之暗面Kimi、百川百小应、MiniMax海螺AI等10款大模型时,表现最好的模型只答对了5道。

在创造性任务方面,多位博主测试显示,DeepSeek-V3-0324在网站开发能力、UI设计等方面表现优秀,只需要简单的文本提示就能快速开发各种网站、App,审美比肩目前全球最强的闭源代码模型Claude 3.7 Sonnet思维链版本。

DeepSeek低调更新模型,代码和数学能力突出,有开发者直呼OpenAI和Anthropic麻烦了

有博主对DeepSeekV3-0324、DeepSeek-V3、Claude 3.5、Claude 3.7下达了同样的任务,要求创建HTML文件,以生成动画天气卡,表现风、雨、太阳、雪等元素,卡片深色背景,并包括一种在不同天气条件之间切换的方法。该博主认为,DeepSeekV3-0324在指令遵循上最为完整,且视觉风格整体也相对较好。

DeepSeek低调更新模型,代码和数学能力突出,有开发者直呼OpenAI和Anthropic麻烦了(从上至下分别为DeepSeek-V3、Claude 3.5、Claude 3.7的结果)

“最好的非推理模型”,OpenAI和Anthropic麻烦了

需要强调的是,DeepSeek-V3-0324是一款非推理模型,而它的表现似乎已经超越了不少推理模型。开源社区GitHub上一个名为Misguided Attention的测试,这款模型排名第四,已经成为最好的非推理模型,得分相比此前的DeepSeek-V3提升了近100%。

DeepSeek低调更新模型,代码和数学能力突出,有开发者直呼OpenAI和Anthropic麻烦了

该测试包含了如电车难题、薛定谔的猫等很多经典问题的改编版本,主要考验大模型在面对误导性信息时,能否不被表象迷惑,从而正确理解并处理。

DeepSeek-V3-0324相较DeepSeek-V3得分显著提高,表明其在注意力分配机制有进一步优化,从而在面对误导性信息时仍能抓住关键细节。

搜狐科技就对电车难题的改编版本进行了测试:假设在一个电车轨道上被绑了5个死了的人,而它的备用轨道上被绑了1个活着的人,又有一辆失控的电车飞速驶来,而你身边正好有一个摇杆,你可以推动摇杆来让电车驶入备用轨道,你会推吗?

(经典电车难题:假设在一个电车轨道上被绑了5个人,而它的备用轨道上被绑了1个人,又有一辆失控的电车飞速驶来,而你身边正好有一个摇杆,你可以推动摇杆来让电车驶入备用轨道,你会推吗?)

对于这个改编版本,DeepSeek-V3-0324经过了初始理解问题—关键信息解读—可能的行动选择—伦理分析—误区与验证—进一步思考—其他解释—结论等步骤,最终做出回答,认为最合理的选择是不推动摇杆,并给出了理由,整体篇幅多达2000字。

DeepSeek低调更新模型,代码和数学能力突出,有开发者直呼OpenAI和Anthropic麻烦了

对比R1的回答,DeepSeek-V3-0324的前述思考过程类似R1的思维链过程,会考虑分析多种情况,并进行验证,呈现出推理模型的一定特征。R1最后的结果更为简洁,也选择不推动摇杆,并似乎意识到这是经典电车难题的变形,显然都没有被误导。

DeepSeek低调更新模型,代码和数学能力突出,有开发者直呼OpenAI和Anthropic麻烦了

网易有道CEO周枫发文表示,现在模型厂商主基本都收敛到了基础模型+深入思考模型的组合,DeepSeek、OpenAI、Claude都是如此。“基础模型使用量比思考模型要大,而深入思考模型负责提供最高的质量,这样组合起来用比较好。”

在部署方面,虽然DeepSeek-V3-0324的模型参数更大,但也能实现在高端消费级硬件运行。苹果机器学习工程师Awni Hannun就基于MLX框架和4-bit量化,在512GB M3 Ultra实现了超过20 token/s的运行速度。

开发者工具创建者西蒙·威利森(Simon Willison)也在博客中提到,4-bit量化版本可将这款模型的存储空间占用降至352GB,从而使其能够在配备M3 Ultra芯片的Mac Studio等高端消费级硬件上运行。

此外,更让开发者关注的是,DeepSeek还将这款最新模型的开源协议从此前的自定义开源许可更新为MIT协议,和DeepSeek-R1实现一致。

MIT是最简单和宽松的开源协议,许可证文本更为简洁,没有专利授权和商标使用等复杂条款,且为完全开源,不限制商用,允许蒸馏,开发者将有更多自主权。

有评论认为,DeepSeek的策略体现了中国公司和西方公司在AI商业理念上的根本分歧。尽管OpenAI和Anthropic等美国领军企业将模型置于付费门槛之后,但中国的AI公司却日益倾向于采用宽松的开源许可。

开源还解决了中国AI公司面临的算力挑战,在有限计算资源下实现高性能,这种由需求驱动的创新现已成为潜在的竞争优势。此前,DeepSeek-V3仅用不到560万美元的训练成本就实现媲美o1等领先模型,引发业内震动。

另有分析指出,DeepSeek-V3-0324有可能成为DeepSeek-R2的基础模型,这遵循了DeepSeek 以往的模型发布模式,即基础模型比专业推理模型早推出几周。

此前就有消息称,DeepSeek将在3月中旬发布DeepSeek-R2,后遭官方辟谣。有报道称,R2将在多个关键领域实现突破,包括更出色的编程能力、多语言推理能力,以及更低的成本和更高的准确性。

“AI正在以惊人的速度发展,一个新的改变者已经进入赛场——DeepSeek正在AI社区掀起波澜,与行业巨头竞争。”有开发者直呼,OpenAI和Anthropic麻烦了。

除了DeepSeek-R2,市场还在等待OpenAI融合推理的GPT-5的到来,AI的竞争还将继续。

本文来自网络,不代表冰河马新闻网立场,转载请注明出处:http://lcvt.cn/20451.html

作者: wczz1314

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部