当前位置:首页 > Deepseek最新资讯 > 正文内容

果然一到假期,DeepSeek 就发新东西了。。。

  春节前整了个 R1 震撼科技圈,昨天又卡着十一假期的 Deadline,发了个新版本 —— DeepSeek-V3.2-Exp 出来。

  诶我有一计,不如多设定几个法定节假日出来,这样 DeepSeek 的产品发布速度也会得到了一波史诗级提升。

  OK 扯远了,回到这次 DeepSeek 发布的 V3.2 EXP 上来,这次的新版本虽然是个带些实验性质的模型,但是整出来的有趣东西是一点也不少:

  大家平时和大模型聊天的时候有没有发现一件事,如果你一直在一个窗口里和一个大模型聊天,那么没过多久,这个天就会被你给聊炸了。。。

  没错,Transformer 架构是有极限的,每次它在给我们生成回答的时候,都要把过去的所有聊天记录加起来一起计算。

  而在计算的时候,Transformer 也会计算这些聊天记录里面,每个单词(token)和其他所有单词之间的关联性,一个一个算下来。

  这也就导致了咱们和大模型聊的越多,它需要加计算的内容也就越多,聊天记录的长度翻了一倍,背后的计算量其实涨了四倍,不但成本暴涨,性能也会有所降低。

  因此各路大模型基本都会规定一个窗口的聊天长度限制,你聊多了,就直接不让你用了,除非新开个窗口才行。

  和人一样的,就比如说你可能会记得住你去年国庆到了哪玩,但是你不会去记住你去年十月一号的早餐吃了什么东西。

  在 DeepSeek 的技术报告里可以看到,他们设计了一个叫做闪电索引器(Lightning Indexer)的新东西。

  这玩意会动态的判断出整个聊天记录里,哪些 Token 是最重要的,然后在后续计算的时候,就只要关注这些重要的 Token 来就算就行了。

  通过这种 “ 先记带动后记 ”、“ 有组织的记忆代替无序的记忆 ”、“ 挑重点记 ” 的方式,DeepSeek 让模型的计算量大幅度下降。

  他们把 DeepSeek-V3.2-Exp 的训练配置与 V3.1-Terminus 进行了对齐,结果发现训练出来的两个模型,在性能上极为接近,在各类数据集上测出来的成绩都打了个五五开。

  也正是因为稀疏注意力的这种效果,Deepseek 又开始当起了价格屠夫,把官方 API 的价格直接打了个对折还带拐弯的。

  另一方面,DeepSeek 又不声不响的整了波王炸,用高级语言 TileLang 设计实现了很多新的GPU算子,再次对老黄的CUDA生态王座发起了试探。

  看完上面这一大段话,大伙儿肯定想,这叽里咕噜的说啥呢?下面差评君就尽量用简单的话,给各位差友把这事儿给聊明白了。

  CUDA 大家应该都很熟悉,只要整点机器学习算法,想调用个 GPUdeepseek,你肯定绕不过配置 CUDA 的折磨。

  它的主要作用,就是把顶层程序员写的计算语言,翻译成芯片能看懂的底层机器语言,才能驱动芯片发挥作用,让数据在上面算起来。

  而现在的市面上,可以说主流的顶层 AI 工具,像是 PyTorch,TensorFlow 等等,几乎都是对英伟达芯片和 CUDA 提供最佳支持。

  我们日常用起来,只要在 python 里敲一个卷积计算v,但背后对应的算子开发,可难度大得多。像是CUDA,要用上百行代码的底层运算,才可能实现一个 conv 算子。

  那么问题来了,国产芯片刚诞生,还没有算子开发的积累,要是想用 pytorch 框架进行 AI 大模型训练,可不可以接上 CUDA 把这条路打通呢?

  倒也不是不行,只不过 CUDA 写的时候没考虑你的芯片结构,就算强行兼容了也发挥不出国产芯片的最强性能。

  于是,Tilelang 出现了。它的作用,就是帮国产芯片迅速打通从顶层AI工具,到底层国产GPU芯片之间的链路。

  各种数据调度、线程分配、资源访问等等问题加在一起,程序员就和那个国庆路口指挥交通的交警一样,头大,永远干不完的活儿。

  而 Tilelang 的作用,就是把各种调度问题都给你自动化,不用人工考虑,它来帮你解决,还能解决得更好。

  程序员不用再想数据放在哪,怎么取,占哪个线程,Tilelang 会自动帮你解决,你只要说想调个数据就行。

  之前一直在提的稀疏注意力,这次被成功在模型里用了起来,未来的大模型,上下文的能力或许会变得更强,能解决的问题或许也会越多。

  之前一直诟病的显卡不够用的毛病也在逐渐好转,和国产的显卡厂商开始一起,摸索出一条绕过老黄的道路。

  也就是在 DeepSeek 发布之后,寒武纪、华为昇腾、都表示了对 DeepSeek 的适配和支持。原文出处:果然一到假期,DeepSeek 就发新东西了。。。,感谢原作者,侵权必删!

标签: deepseek

“果然一到假期,DeepSeek 就发新东西了。。。” 的相关文章

亚洲杯即将来袭!快来评选你心中中国男篮现役最佳阵容

亚洲杯即将来袭!快来评选你心中中国男篮现役最佳阵容

  中国男篮即将奔赴沙特,征战8月5日开打的男篮亚洲杯。此次出征的队员共有14名,包括胡金秋、胡明轩、赵睿、程帅澎、朱俊龙、赵嘉义、廖三宁、余嘉豪、雷蒙、王俊杰、徐杰、高诗岩、李祥波、张宁...

有兄弟买了韦德之道1复刻吗

有兄弟买了韦德之道1复刻吗

  这双鞋可以打篮球,但绝对谈不上好穿。前掌毫无回馈,后掌要非常用力才有一点点软的感觉。特别是后跟落地的时候没有引导过渡直接啪一下下来,而且这双鞋的中底钢性不差,我感觉高强度下来腿部力量下...

头号登吹等你来!adidas哈登「UNO FEST」线下狂欢,20张门票随机送!

头号登吹等你来!adidas哈登「UNO FEST」线下狂欢,20张门票随机送!

  詹姆斯·哈登2025中国行即将正式拉开序幕!8月2日,哈登本人将空降广州,开启adidas 「UNO FEST」大型球迷派对。这不止是一场见面会,更是一次属于信徒的朝圣。...

DeepSeek预测:西班牙人vs瓦伦西亚!米拉缺阵,鹦鹉军团主场恐遭蝙蝠逆袭?

DeepSeek预测:西班牙人vs瓦伦西亚!米拉缺阵,鹦鹉军团主场恐遭蝙蝠逆袭?

  西甲第6轮即将上演一场欧战资格卡位战,排名第4的西班牙人将在RCDE球场迎战第10的瓦伦西亚。主队目前以3胜1平1负积10分紧咬欧冠区,而客队7分距离欧战区仅2分之差。有趣的是,两队近...

每日互动股价上涨8.49% 市场关注DeepSeek-R2发布时间传闻

每日互动股价上涨8.49% 市场关注DeepSeek-R2发布时间传闻

  截至2025年8月12日15时28分,每日互动股价报40.88元,较前一交易日上涨3.20元,涨幅8.49%。盘中最高触及42.48元,最低下探37.13元,成交额40.21亿元,换手...

招生简章丨关于举办“Deepseek驱动下的行政事业单位政府采购与资产管理实践”

招生简章丨关于举办“Deepseek驱动下的行政事业单位政府采购与资产管理实践”

  为帮助各单位人员深入学习政府采购及其在国有资产管理的应用,提升资产管理人员的业务水平和管理能力,规范采购流程,有针对性地解决政府采购及招投标业务存在的突出问题,以及人工智能大模型Dee...