当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

5个月前 (02-26)DeepSeek技术交流357

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

四川一公安机关接入DeepSeek 守护辖区平安

四川一公安机关接入DeepSeek 守护辖区平安

四川新闻网-首屏新闻记者 谢川霞国产AI黑马DeepSeek,火爆全网,一时间风头正劲,成为热议的焦点。成都高新公安利用这把“大火”,积极探索新型警务模式,淬炼出一名新成员:技术警员DeepSeek!...

全面适配!京东云将DeepSeek推理场景性能提升50%

全面适配!京东云将DeepSeek推理场景性能提升50%

央广网北京3月3日消息 在DeepSeek为期五天的“开源周”中,其连续开源的五大核心技术(FlashMLA、DeepEP、DeepGEMM、DualPipe & EPLB、3FS文件系统),...

微信,正式接入火热的DeepSeek

微信,正式接入火热的DeepSeek

微信,正式接入火热的DeepSeek。2月16日,券商中国记者从腾讯获悉,微信搜一搜在调用混元大模型丰富 AI 搜索的同时,近日正式灰度测试接入DeepSeek。被灰度到的用户,可在对话框顶部搜索入口...

DeepSeek-V3模型更新,各项能力全面进阶

DeepSeek-V3模型更新,各项能力全面进阶

人民财讯3月25日电,DeepSeek-V3模型已完成小版本升级,目前版本号DeepSeek-V3-0324,新版V3模型借鉴DeepSeek-R1模型训练过程中所使用的强化学习技术,大幅提高了在推理...

黄仁勋如何抗过DeepSeek冲击?

黄仁勋如何抗过DeepSeek冲击?

摘要:除了核心业务外,英伟达几乎不为任何事分心。4月13日,华尔街日报发文,人工智能基础设施领域的王者英伟达似乎无处不在,人们很容易将成功原因归结为该公司掌握的强大技术。但它广泛的影响力也反映出一种商...

DeepSeek帮英特尔找到了退路

DeepSeek帮英特尔找到了退路

文源 | 源 Sight作者 | 柯基最近,全球半导体行业风云突变。3 月 18 日,英特尔官网一纸公告,如同平地惊雷,炸响全球科技界。陈立武,这位名字稍显陌生的投资教父级人物,正式接任英特尔第九任...