E128 实测!DeepSeekR1大战OpenAIo1,中国在AI上真的超越美国了吗?(非问答1小时) | 透明茶室 • 每日新闻事件分析 | 人工智能 | 大模型 | 个人独裁
非常好,这是处理后的中文文本,添加了标点符号和段落分隔,使之更易于阅读和理解:
非常短的时间内,中国在三个领域都战胜了美国。
第一个领域是去年年末,中国发布六代机和两栖攻击舰的时候,中国的军事实力正式超越了美国。
第二个是前两天小红书中美对战的时候,中国人的民生水平彻底超越了美国。
第三个领域就是在AI领域,在中国人认为自己做不好的领域,短时间内中国也超越了美国。
这个就是Disc公司的R1模型,被很多人认为超越了OpenAI的欧万模型。短时间内,DC确实引发了特别大的关注和吸引力。
比如国内的媒体是这样报道的,说DPC R1豪赌强化学习,以3%的成本超越OpenAI。第二个DPC,或将彻底改变游戏规则,中国大模型搅动硅谷巨头进入恐慌模式,让硅谷南安 DPC 的含金量还在上升,只招1%的天才。这家中国公司让硅谷南安。你看报道越来越深,只招1%的天才。
这部分就已经不知道在写什么东西了,还有很多人在讲什么神秘的东方力量等等。
那么,DPC R1除了在中文媒体有很多报道之外,其实也引爆了海外。就在YouTube上搜索“DPC卡”,其实有非常多的报道。尤其是DP Seek本身,还是一个开源的模型,所以在这个程序员圈和开源界,也引发了很大的争议和很大的关注。因为在整个程序员的领域之内,大家还是去拥抱开源模型的,就不像OpenAI,最开始是开源的,现在已经成为一个闭源的模型了。而这个也是它吸引关注的一个重要的点。
好,我们今天重点关注就是DPC R1有没有这么厉害。好,我们就要谈这个问题,大家。
好,今天是1月27日,欢迎来到透明茶醒茶。今天我们的新闻话题赶个大热点:DPC One是不是这么厉害?
我们首先来说,什么是Deep Seek。Deep Seek其实脱胎于国内的一个量化投资基金,就是幻方量化。它是杭州九章资产管理有限公司下面的一个量化基金。杭州九章资产管理有限公司是2016年兴起的一个量化投资。量化投资就是使用计算机程序进行自动投资。它是不是自动下单不重要,主要是自动生成投资策略。因此在这方面,它跟AI,就像现在我们做的大语言模型其实很像。而且幻方量化就是业绩非常不错,除了2021年有一次AI导致策略的问题之外,其他时候他们的业绩都非常的稳定,而且已经形成一个到达有数值到达百亿规模以上的私募量化基金。在国内的私募量化基金里面,绝对是第一梯队。而且这个公司在非常早,就在AI方面有非常大的投入。他早期因为要做量化投资,就AI有AI Lab之后,他们在2019年就不是投入巨资来建立自己的算法库。
他们在2019年就有一个非常大规模的显卡集群,当时在全国是Top five的显卡集群。这个显卡就是另外的4家,全市4家互联网大公司,就是百度、阿里、腾讯等等。那么也就是说他们是除了互联网公司之外,显卡投入实力最多的一家公司。那么2020年他们又展开了自己显卡的集群的第二期的投资。之后就遭遇了美国的禁运。在显卡禁运情况之下,在显卡投资方面,他们就不能够如此大张旗鼓了。但这个AI Lab从最开始20多个人发展到好几百个人。现在Disc就脱胎于这家公司的AI Lab。
那么他最开始是做量化投资,其实就是去输入股市本身的走势,基于股市的技术面来对股价,基于股市的状况和买卖的状况,对下一步的交易进行预测。所以其实跟LLM (Large Language Model) 本身是有相似性的。所以说一个量化基金公司出来做Lucky Language Model,而且本身脱胎于自己的AI Lab,也是一个并不奇怪的事情。而且这家公司虽然说什么招聘1%,是涉嫌标题党,但确实是脱胎于浙大的一个研究团队,研发能力应该是非常的强。然后这是Disc的一个背景。
这个背景上,Disc有没有中国军方,中国政治的背景?从现在来看,确实是没有。这家公司就是一个私营公司。私营公司脱胎于量化,但之后随着它现在这么火,有没有可能被官方收编,或者跟官方进行合作?我认为在中国是跑不了的一个事情。那么之后他会怎么样?跟中国的官方会有什么样的关系?我们之后再关注。
今天我们还是核心关注在这个Disc之上。那么Disc有这么厉害吗?首先厉不厉害先不说,火是真的火。火到这个网站现在有点不稳定了,因为他们公司是一个开源模型供应商,就自己并没有提供一个主要的产品。当然他们公司有个网站,把服务挂在DPC这个网站之上。这个网站提供的通道和带宽可能是有限的。像昨天晚上我使用,尤其是昨天晚上我用的,应该是这边的时间12:00、1:00,那就是外国人在用的时候。所以美国那边很多人在尝试Disc。在那个时候,网站由于过于拥挤,已经有点登不上了。所以火是真的火。
好,第二点,他这个事儿是不是真的?因为他自己除了发布R1模型之外,还有一篇论文来讲他们是怎么在较低算力的情况之下取得较好结果的。很多人也会认为这个论文是假的,中国人可能要造假等等。首先这个论文肯定是真的。第一,它是一个开源模型。作为一个开源模型,你撒谎的空间非常小,对吧?因为你是开源模型,别人下载用你的方法部署之后,来一测测试的结果如何,其实你要撒谎空间是不大的。而且也没必要撒谎的。所以这个模型最开始能不能达到他所承诺的结果,和他所使用的评测模型的结果,肯定是可以的。好,所以撒谎是没必要的。
但是好不好用,我们就直接来做一些实际的测试,通过实际的例子来看它好不好用。而且这个好不好用,我肯定不谈中国的政治审核。这个模型肯定是有政治审核的,而且政治审核做的是很好,也很宽泛的。经常输出的输出你还没来得及看,就是两三秒之内再尝试。输出过程中可能碰到一个关键词,立马就停了。所以它审核是非常宽泛的。审核的宽泛也会导致在很多时候,它可能会不可用。
那么我就用了很多例子来测试,测试的就是DPC R1和OpenAI 01之间的结果。我们来看结果双方各有什么优劣,或者从中要来看出Disc有一个非常关键的问题。这个问题可能是它的一个命门。
那么我这次测试,肯定测试就是文字的输出工作,并不涉及测试数学和编程的部分。因为数学和编程的部分我自己用的少,我自己也缺乏判断能力。而且我相信绝大多数人使用的应该还是文字输出。而且就是Zero shot 的输出。所谓Zero shot输出,就是我并没有对文字输出结果有任何格式化的预期,通过一个自然语言要求它输出结果的Zero shot输出。我今天做的是Zero shot输出,但是实现了一定程度下结果。这个是很有意思的,我们一会来讲。
我用了很多问题来给DPC 2万和OpenAI的01,包括这个问题本身,就是这次Deep Secret实现的问题本身。我就来看我第一个问题是这样问的。我把我的prompt完整念出来,让大家来看我。这个prompt是这样说的,我说“现在LLM大模型的发展非常迅速,但也遭遇了需要极大算力的障碍,模型生成Token的效率遭遇质疑,从Transformer方面算法的角度,导致模型运转需要大量资源的根本原因是什么?有哪些方向可以探索用于提高模型的效率,减少算力资源的投入?请从算法原理层面说明这个复杂的问题,但追求输出答案的易理解性,让非算法专业人员也有可能理解答案的意思。”就是这么一个Prompt。
这个Prompt,我没有做任何Prompt优化。 Prompt优化就是说你要用一些词儿喂给他,导致他能够思考更长时间,说出什么结果,这种魔法PRO优化我之后会做。但是大家平时其实一般人使用,一般不会去用那么多心思做PRO优化。我先从生成字数方面来对比下。GPT回答生成了2649个字,DPC可生成了967个字,生成的字数是Trgp接近1/3。这个就是DP Seek本身一个很大的问题,也是DP Seek使用优化方法的一个tradeoff。所有问题之上,DPC可生成的文本量比Higpt都要少很多。这是个很大的问题。
在有些问题回答之上,文本量多寡我们不能直接来当做一个评价的结果。尤其是Crgp有时候回答比较水,文本比较多,就是车轱辘话来回说,字数少不一定就不好。如果言简意赅的把问题说明白,其实也非常不错,但我们就要来看这个Disc有没有实现这样的效果。我们就从这个问题来看。
我们先从这个问题这两个分别来回答,在出现form的算法角度,导致模型运转需要大量资源的根本原因是什么。青海GPT呢是对这个问题进行了两个方面的阐述。他说第一模型规模与参与量庞大。第一大语言模型都意味着巨大的参数量庞大,巨大的参数量。他也说了当下主流语言模型gbd3、GB for等都拥有数百亿甚至上千亿的参数,每次推理生成文本上,这些模型都会参与计算,这是第一点。第二参数量与计算量正相关,就是神经网络开销来源于量和矩阵的陈述关系,参数越多模型的矩阵就越大,每次的乘法数量也随之暴增,这是第一点。第二点他说自回归生成方式导致的重复计算。它就说它需要一字一字的生成,让你模型输入下一句话时,都会先输出第一个词,再基于已有的上下文输出第二个词以此类推,每次都要用到历史信息,叫self attention机制。所以我觉得本身是说的蛮好的,而且这个也比较容易理解,就是这两个方式导致这个算法效率就更低。
那么Disc怎么讲的?Disc你看输出这个结果的风格就非常不一样了。Disc一共起了4个标题:第一个标题,注意力机制的全员对话模式,全员对话打了引号;第二深度堆叠的重复思考,重复思考打了引号;第三,参数爆炸的记忆负担,记忆负担打了引号;第四,逐字生成的流水线堵塞,流水线堵塞打了引号。也就是说关于Transform的算法机制,为了实现我讲的,就是让不是算法专业的人员也可以理解答案,说出答案的易理解性,DPC可能自己对它进行了一定程度的比喻。但这个比喻注意力机制的全员对话模式,我不知道他这个比喻很有意思。这个比喻在什么意义之上可以真正帮助你理解,这个是有一点问题了。一会儿这个问题会越来越明显的凸显出来。比如说注意力机制的全员对话模式来阐述是什么问题。是 Transformer 的核心模块,自注意力机制要求每个词都要计算与其他所有词的关系,计算量与文本长度呈平方级的增长。我觉得说的也蛮明白的,但跟全员对话就需要你自己通过你的理解来填补全员对话模式本体和喻体的关联了。包括重复记重复思考,模型有数10个结构相同的层堆叠,如GGP的数有96层,每一层都要重新计算词与词的关系导致重复计算。对,就是他用了很多比喻,但这个比喻本体和喻体与叙述过程之间其实没有那么紧密的结合,因为它毕竟不是人,它也是一个输出的机制。
好,第二点我们来看改进。我也讲了怎么改进。而这个改进很重要。这次改进其实就是Disc做的事情。Disc就是在这个算力瓶颈和算力障碍太大情况之下做了一个改进。那么亲爱 GPT的改进说了非常的多。亲爱 GPT的改进对应了他自己突然说的问题。亲爱 GPT不是说两个问题,第一模型规模与参数量庞大。那么在结构优化改进,模型规模与参数量庞大,他就列举了4点:稀疏注意力、线性注意力、分块处理,改进解码方式等等。第二点就是自回归方式就重复计算,重复计算它也给出了4点模型剪枝量化、知识蒸馏可扩散的微调等等。包括他还提出另外两两个角度就训练与推理结果分离,专用硬件加速就这4个分类是比较好的。
好,这个里面的细节我暂时先不说。整个DPck也说了4类。 DPck说了4个简,而且第四个说了这4个简化对话模式注意力机制的优化。你看看上面的第一个,注意力机制的全员对话,是一一对应的。如果它每一个都能跟上面来一一对应就比较好,但之后其实没有呈现出一一对应。比如说第二个不是讲深度堆叠的重复思考,但他的第二点讲的是压缩知识库模型的轻量化,就是脱离了比喻的喻体。他第三个讲的是改进生产流程解码策略优化。第四个是硬件适配设计,计算精度的优化。整个内容我就不细说了,整个内容部分其他GPU one对于本身的机制和算法的运转解释的更清楚。 DPC课这部分基本上跟7igb01的所有点都能够形成一一对应,包括吸收注意力记忆缓存知识蒸馏并行解码等等都能够提到一一对应。但一一对应情况之下,我觉得它本身由于输出量的问题,它解释的就没有那么的清楚。
我举一个例子,比如知识蒸馏。他说让大模型像老师一样训练小模型,他就说了这么一句话。但是知识蒸馏这一点,比如说Grgb怎么讲的。Grgb说用一个已训练的大模型来指导一个小模型,从而让小模型获得某种部分上近似大模型的能力优点。学生模型更小推理速度更快不足,难以完全保持大模型的所有知识与性能,效果也在依赖多少领域上蒸馏蒸馏方式等等,难以做到完全匹配。所以你看现在GPT在知识蒸馏 knowledge distillation 这点上,它的方法优点缺点其实讲的主要比较完整。其他GPT对于每一个方法就每一个优化方法其实都提到了这个方法的,要么提到了方法的一些难点,要么提到了方法的挑战。那么有些地方有优点比如说量化部分,把参数计算从30 26位浮点压缩到8位,甚至更低优点也会提出来。所以拆GPT在整个优化方式之上其实讲的是比DP好的。
那么优化方式这部分我要多说一句了,其实这是DPC可使用的优化方式,并没有出现突破性的优化。基本就是在tigpt和它自己生成这个结果之上,所有优化方式都是基于Transformer的算法可以想到的,大家可以预料到的一些优化,包括把参数计算的浮点预算降低,包括训练一个小模型,不是每次都调用大模型,用分布模型来进行计算,包括分块处理,不不要去反算所有文本,而只是基于上下文较短的一个部分来进行运算,包括不让每一个词都有跟进的注意力计算,剔除掉一些没有意义的词等等。这个都是基于Transformed的本身的原理能够想到的方法。我相信不管是Open是Google,每个公司都在所有这些方法都在进行测试。并不是只有DPck一家在进行测试。每家公司都进行测试,为什么这些公司没有使用,或者很可能也使用了,因为是闭源的,但是没有体现出这么大的一个突破性,或者没有降低到这么多,就是我们一会儿说到的,其实这些优化是有代价的,好。
我就来说优化的代价。马上在第一个问题, DPck的结尾就出现了 dpck的结尾。我被注意到 DPck其实在结尾处使用了一个过渡的比喻。他说想象Transformer最初的设计,像一场全员自由讨论的会议,虽然决策质量高,但效率低下。优化的方向是第一,制定发言规则括号限制注意力范围。第二,培养高效助手知识蒸馏。其实我不得不说这两点都做得特别好,而且这两点的比喻,我觉得比喻的是很不错的。但第三点和第四点,第三改进会议流程推测解码,对这个其实就我觉得比喻的不好了。什么是推测解码呢?推测解码其实是现在整个 Transformer模型Lucky Language Model的模式,是一个token往下生成的,就是一个字往下跳。但是用它这个推测解码的方式,其实就是要超出一个token,每次进行网下预测,但网下预测的计算方法不会直接输出结果,而会把网下预测加入到大模型之中,但这个数有点复杂了。所以 anyway 也就是说不管怎么说,现在很多家应该都在测试所谓的推测解码方式。但推测解码方式能不能比喻为改进会议流程,其实是没法比喻的,它跟会议流程的关系其实不是特别的大,因为在这一点上,已经很难用它来比喻人在一个会议上发言的层面之上了。包括使用速记符号低精度预算,低精度的计算,这个低精度的计算是不是在数据符号之上进一步来运算,跟一个人类惠誉的比喻关系,我觉得其实也是有一点点问题的。但我不得不说就是整个Disc,它比起OpenAI,它在更激进的在使用比喻的方式来帮助你完成理解。这一点在某些层面之上是好的,但是在第一个结果里面就已经出现了一些过度比喻的情况。而且过渡比喻从前到后使用了