当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek和Kimi首轮就被淘汰,这项大模型对抗赛说明了什么?

2个月前 (08-06)Deepseek最新资讯195

  谷歌发起的“首届大模型对抗赛”,在赛前就已经话题度拉满,但是随着8月5日比赛正式打响,参赛AI展现出的水平或许令人有些失望。相比于两款中国模型DeepSeek-R1和Kimi K2 Instruct的首轮折戟,比赛传递出的更重要信息在于,通用大模型的推理能力还存在普遍性缺陷。

  首先要说明的是,所谓“首届大模型对抗赛”,其实在比赛形式和参赛AI大模型的选择上都备受争议。

  这次比赛的形式是让大模型两两捉对下国际象棋。谷歌DeepMind团队,也就是2017年凭借AlphaGo彻底在棋类项目上击败人类的团队,为大模型提供了技术接口,让大模型能够“看懂”棋盘。

  其中两款中国模型的选择受到了不少质疑,首先deepseek,Kimi K2 Instruct并非推理模型,在下棋场景存在天然劣势,而DeepSeek-R1已经是半年前发布的“老模型”。因此,不管其表现如何,比赛结果都不能客观反映中国大模型行业的真实水平。

  在比赛的官方网站上,也有用户提出了这样的质疑。而主办方的回复称,这次比赛只是一个开始,后续会将更多中国模型纳入。

  从对阵图中可以看到,首轮四组对决都呈现“一边倒”的态势,获胜方全部都取得了4-0的全胜战绩。

  如果具体来看比赛过程,Kimi K2 Instruct不出意外是表现最差的模型,不光贡献了仅仅4回合就被对手将死的最快败局,还多次因为非法移动被判负(比赛规则设定,如果连续4次尝试非法移动就会被判负)。

  例如下面的场景中,Kimi试图用白马去吃掉对方的黑后,而没有意识到马是不能这样移动的。即使在被人工告知这是非法移动后,它仍然坚持认为这是最优走法。

  事实上,尽管有不少低级错误,Kimi在每一盘的开局中都还表现中规中矩,能够使用人类的经典开局方式,显示出大模型对于国际象棋的基础知识是有认知的。只不过随着局面开始复杂化,所有大模型都开始变得力不从心。

  在推理过程中可以看到,DeepSeek-R1认为对方的黑后威胁到了己方c2的兵,因此打算将白后移动到c3,认为这样可以逼迫黑后做出避让,并用d列的白车威胁同列的黑王。

  但是到了下一回合,白棋仿佛就忘记了前面的考虑,在明明有其它选择的情况下,用自己的王挡住了车的路线,白白损失掉白后。

  有国际象棋爱好者对观察者网指出,这里更常规的选择是白后D4吃兵,在将军的同时还能解放出己方车的路线。看上去,DeepSeek-R1似乎只能考虑到有限的几种情况,缺乏多步推理和全局概念。

  需要指出的是,这不是DeepSeek-R1独有的问题,基本上每个大模型都在常规的开局后,迅速开始下出各种“昏招”。

  在专业的国际象棋网站来,只有Grok 4的表现略胜一筹,能够较好地识别和捕获对方未设防的棋子。

  马斯克也在第一时间“炫耀”说,(下棋)只是Grok 4的“副作用”,他们并未对此做专门训练。

  首先,“首届大模型对抗赛”这样的说法,或许并不合适,因为比赛测试的仅仅是下国际象棋这样的单一能力,并不能完全反映一个模型的综合水平。

  但是谷歌的野心,也不仅仅是办一场国际象棋比赛。事实上,本次比赛更像是谷歌为了打造一个更大规模LLM评价体系的“垫场赛”。

  承办本次比赛的Kaggle,本就是谷歌旗下知名的数据科学赛事平台,在行业内享有很高声誉,如今在DeepMind加持下进军LLM赛事,最终应该是希望打造一套更加完整权威的评价体系。

  当前每逢各家大模型上新,“刷榜”已经成了标准操作,各种“SOTA”层出不穷,但是业内对这些榜单能否真正客观体现模型能力,一直存在质疑。甚至不排除模型在训练阶段,就会针对榜单题目进行针对性优化。

  从这个角度来说,如果能够建立一套新的评级体系,掌握评级话语权,对于谷歌在AI领域的地位将是极大的加强。

  如果只看国际象棋比赛比赛本身,我们也可以看到,其对大模型能力的评估确实也有相当的参考价值。例如,非推理模型Kimi K2 Instruct的确表现较差,而Gemini 2.5 的Pro和Flash也体现出了能力差距。

  而对行业来说,这项比赛也让我们更清晰地看到,即使是2025年最新的推理大模型,在解决垂直问题时的表现,不但不如多年前的AlphaGo,甚至也可能远远不如受过基本训练的人类。单靠通用模型去做场景落地并不现实,这意味着应用层面的创业者仍有广阔空间。原文出处:DeepSeek和Kimi首轮就被淘汰,这项大模型对抗赛说明了什么?,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek和Kimi首轮就被淘汰,这项大模型对抗赛说明了什么?” 的相关文章

DeepSeek首度公开R1模型训练成本仅为29.4万美元,“美国同行开始质疑自

DeepSeek首度公开R1模型训练成本仅为29.4万美元,“美国同行开始质疑自

  【文/观察者网 王一】DeepSeek今年年初以高性价比、高性能、开源驱动等特点惊艳了世界。其团队近日在英国《自然》杂志发表论文首次披露,DeepSeek-R1模型的训练成本仅为29....

DeepSeek预测:国际米兰VS都灵!蓝黑军团主场碾压?劳塔罗领衔火力全开

DeepSeek预测:国际米兰VS都灵!蓝黑军团主场碾压?劳塔罗领衔火力全开

  2025-26赛季意甲首轮焦点战,国际米兰将在梅阿查球场迎战都灵。蓝黑军团上赛季排名第2,而都灵仅列第11,双方实力差距明显。从历史交锋看,近5次对决国际米兰全胜且4场零封deepse...

新一轮AI革命爆发!DeepSeek-V3.1带火这些龙头股

新一轮AI革命爆发!DeepSeek-V3.1带火这些龙头股

  DeepSeek-V3.1作为2025年8月发布的新一代AI大模型,在混合推理架构、思考效率和Agent能力等方面进行了全面升级,推动了国产AI芯片及算力产业链的快速发展,引发了市场对...

DeepSeek预测:热那亚vs尤文图斯!斑马军团火力全开,伊尔迪兹助攻王领衔屠

DeepSeek预测:热那亚vs尤文图斯!斑马军团火力全开,伊尔迪兹助攻王领衔屠

  作为意甲历史最悠久的俱乐部,热那亚新赛季首轮0-0闷平莱切,目前以1分暂列第11位。而尤文图斯则在图多尔带领下2-0轻取帕尔马,与国米、那不勒斯并列榜首deepseek。这场对决不仅是...

DeepSeek深度思考按钮更新,V3与R1合并部署降本增效

DeepSeek深度思考按钮更新,V3与R1合并部署降本增效

  据新浪科技,在最新的App和官网上,新版DeepSeek输入框中的“深度思考(R1)”按钮,直接变成了“深度思考”。这意味着在开启深度思考模式后,DeepSeek调用的推理模型或已不再...

中国文人艺术的正格与变格 方创然书《翁城李白墓志铭并序》(Deepseek撰)

中国文人艺术的正格与变格 方创然书《翁城李白墓志铭并序》(Deepseek撰)

  冯友兰先生在《中国哲学简史》里把佛教在中国的发展分为“佛教在中国”和“中国的佛教”,以此类比,吾侪把当代艺术划分为“当代艺术在中国”和“中国的当代艺术”。“中国文人艺术的正格与变格”致...