当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek V3.1 终极版拆解：“人类最后测试”表现提升36.5%，或为

4小时前Deepseek最新资讯14

　　据官方介绍，此次更新是基于原有模型能力，着重改进了语言一致性问题deepseek，并进一步优化了Code Agent与Search Agent的表现。

　　值得一提的是，距离上次DeepSeek-V3.1模型更新仅过了一个月，新模型DeepSeek-V3.1-Terminus在多个专业基准测试中的表现均有提升。

　　在非Agent（Thinking）模式下， DeepSeek-V3.1-Terminus在MMLU-Pro（广泛学科知识）、GPQA-Diamond（顶尖专业科学难题）等方面表现较旧版本更优。其中在Humanity‘s Last Exam（人类最后测试）中表现提升高达36.5%，目前已超越Gemini 2.5 Pro模型来到全球排行榜第三位，该测试主要考察模型在多种极端困难任务上的整体表现。

　　而在Agent测评中，DeepSeek-V3.1-Terminus的网页浏览、编程能力和问答表现均得到小幅提升。

　　实测：被吐槽的两大bug修复，终于不再“迷糊”今年8月，在DeepSeek-V3.1发布后，有不少用户反馈新模型有两个严重Bug值得关注。其一是模型会出现语言不一致问题，输出的回答经常中、英、法等语言混用，令用户费解。另一方面在于用API调用模型时，会不受控地随机输出“极”、“extreme”字样，影响代码正常运行。

　　针对第一个问题，有网友在让DeepSeek-V3.1帮忙分析红楼梦的文学价值时，输出的答案会突然插一句“这个metaphor运用得极其精妙”，让用户哭笑不得。

　　搜狐科技在新模型DeepSeek-V3.1-Terminus测试发现，语言混杂的问题得到了缓解，并且语意表述较之前更为通顺。

　　另有网友提到，此前翻译小语种时DeepSeek-V3.1出现多国语言混杂问题更加严重。搜狐科技也对此进行了测试，把一长段西班牙语喂给DeepSeek-V3.1-Terminus，并要求用7国语言进行转译，未发现语言混杂问题出现。

　　之前会在输出代码中出现“time.Se极”等异常字符，尤其是在用Go和Python语言编写时出现概率很高。但在新模型上经多次测试，均未再出现类似异常。

　　自V3.1版本模型发布以来，DeepSeek官方将其称为“迈向 Agent 时代的第一步”，并持续深入在 AI Agent 领域的布局。如今强调DeepSeek-V3.1-Terminus在Agent能力上的优化，进一步证实了这一战略重心。

　　据多方消息爆料，DeepSeek 目前正紧锣密鼓开发具备更强大 AI Agent 能力的全新模型，计划于 2025 年第四季度重磅推出。

　　此次对于“Terminus（终点）”的模型命名，一度引发网友猜测。有业内人士表示，“虽然DeepSeek并未官宣这是V3系列的最后一次更新，但其名称确实表明了这一点。预计下一版本的发布会是一个全新的架构，并会在Agent方面展示更多惊喜。”

　　另有开发者也表达了相似观点，“这极有可能代表V3.1的技术架构，到这里已经打磨的差不多了，DeepSeek-V3.1-Terminus就是这个系列的收官之作，恰好也是下一代模型的起点。”

　　海内外社交平台已经频现网友催更：DeepSeek-V4/DeepSeek-R2，是不是就要来了？原文出处：DeepSeek V3.1 终极版拆解：“人类最后测试”表现提升36.5%，或为 V4R2 模型序曲，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：AI帮你打工是种什么体验：测评搭载Deepseek的讯飞AI智能鼠标办公效率

没有最新的文章了...

“DeepSeek V3.1 终极版拆解：“人类最后测试”表现提升36.5%，或为” 的相关文章

DeepSeek V3.1 终极版拆解：“人类最后测试”表现提升36.5%，或为

“DeepSeek V3.1 终极版拆解：“人类最后测试”表现提升36.5%，或为” 的相关文章

硅谷观察：马斯克起诉苹果偏袒OpenAI，却被网友用DeepSeek打脸

DeepSeek首度公开R1模型训练成本仅为29.4万美元，“美国同行开始质疑自

中国铁塔麻文军：深化“人工智能+”行动赋能数智化升级转型

Deepseek推荐全国旅游百强区第30名：广西北海市银海区

微信、抖音、DeepSeek等平台官宣

恒扬数据携手华为发布智能计算新品共筑算力新生态

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.

DeepSeek V3.1 终极版拆解：“人类最后测试”表现提升36.5%，或为

“DeepSeek V3.1 终极版拆解：“人类最后测试”表现提升36.5%，或为” 的相关文章

硅谷观察：马斯克起诉苹果偏袒OpenAI，却被网友用DeepSeek打脸

DeepSeek首度公开R1模型训练成本仅为29.4万美元，“美国同行开始质疑自

中国铁塔麻文军：深化“人工智能+”行动 赋能数智化升级转型

Deepseek推荐全国旅游百强区第30名：广西北海市银海区

微信、抖音、DeepSeek等平台官宣

恒扬数据携手华为发布智能计算新品 共筑算力新生态

Powered By Z-BlogPHP. Theme by TOYEAN.

中国铁塔麻文军：深化“人工智能+”行动赋能数智化升级转型

恒扬数据携手华为发布智能计算新品共筑算力新生态