当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布V3.1版本,专为国产芯片优化,支持双模式推理架构

2个月前 (08-21)Deepseek最新资讯226

  8月21日,DeepSeek正式发布其最新版本DeepSeek-V3.1,该版本采用了UE8M0 FP8 Scale的参数精度。据悉,这一技术规格专门为即将发布的下一代国产芯片进行优化设计。

  新版本在技术架构方面实现重要突破,引入了混合推理架构设计。该架构允许单一模型同时支持思考模式与非思考模式两种运行状态。用户可通过官方应用程序或网页端的深度思考按钮自由切换不同模式。

  与此同时,V3.1版本在运行效率方面取得显著提升。相比前代DeepSeek-R1-0528,新版本能够在更短时间内提供响应结果。通过思维链压缩训练技术,模型在输出token数量减少20%至50%的情况下,仍能保持相同的任务表现水平。

  在智能体能力方面,V3.1通过后训练优化实现了质的飞跃。新模型在工具使用、编程任务以及复杂搜索等智能体相关任务中表现获得较大幅度提升。在代码修复测评SWE与命令行终端环境测试中,该模型展现出更强的处理能力。

  技术规格方面,V3.1版本将上下文窗口扩展至128K,并新增对Anthropic API格式的支持。API接口同步升级deepseek,提供deepseek-chat与deepseek-reasoner两个不同接口,分别对应非思考模式和思考模式。

  值得注意的是,V3.1对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。这些调整旨在更好地适配即将推出的国产芯片硬件环境。

  官方应用程序与网页端模型已同步升级为DeepSeek-V3.1版本。据了解,公司计划于2025年9月6日起执行新的API定价方案并取消夜间优惠政策。原文出处:DeepSeek发布V3.1版本,专为国产芯片优化,支持双模式推理架构,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek发布V3.1版本,专为国产芯片优化,支持双模式推理架构” 的相关文章

我武生物:公司研发人员可以借助DeepSeek等大语言模型检索相关研发信息和资料

我武生物:公司研发人员可以借助DeepSeek等大语言模型检索相关研发信息和资料

  请问人工智能对公司研发有没有帮助,比如deepseek这些应用对研发有没有帮助,请介绍一下投资者您好,公司研发人员可以借助DeepSeek等大语言模型检索相关研发信息和资料。感谢您的关...

DeepSeek母公司陷1.18亿返佣大案!

DeepSeek母公司陷1.18亿返佣大案!

  国内顶级量化私募机构幻方量化陷入一场牵涉金额高达1.18亿元的返佣案件。此案涉及幻方量化市场总监李橙deepseek,时间跨度长达六年。案件曝光后,幻方量化作为大模型DeepSeek的...

豆包月活用户超越DeepSeek,登顶8月中国原生AI APP榜首

豆包月活用户超越DeepSeek,登顶8月中国原生AI APP榜首

  同期,腾讯元宝的月活用户规模环比增速最大,高达22.4%,位居原生APP月活用户TOP10第三位,月活规模处于1000万-1亿量级。   月活跃用户规模TOP50AI...

900 万、DeepSeek 部署大单

900 万、DeepSeek 部署大单

  需求概况:有效支撑各委办局在政务场景下对大模型等智能化应用的迫切需求,以政府采购服务的方式搭建岳阳市市级政务云智算专区,部署...

DeepSeek遵循新规,AI生成内容添加明确标识以保用户知情权

DeepSeek遵循新规,AI生成内容添加明确标识以保用户知情权

  【TechWeb】在《人工智能生成合成内容标识办法》及相应国家标准于2025年9月1日起施行的大背景下,DeepSeek公司积极响应政策要求,发布了一项关于AI生成合成内容标识的重要公...

DeepSeek掷出FP8骰子:一场关于效率、成本与自主可控的算力博弈

DeepSeek掷出FP8骰子:一场关于效率、成本与自主可控的算力博弈

  芯片指数与AI算力指数近期持续走高背后,是AI浪潮与大模型算力需求剧增下,国产替代加速与供应链多元化路径日渐成熟的趋势。而DeepSeek掷出FP8这颗 “魔力骰子”,不仅精准切中行业...