E129 DeepSeek厉害吗?手把手教你用趣味测试复现其存在的严重问题,小白友好(非问答1小时) | 透明茶室 • 每日新闻事件分析 | LLM | 大模型 | chatGPT | R1
DPC 的这个话题最近确实太火了,因为这本身是一个 Large Language Model 的产品,而且它本身也是一个互联网的产品。
所以说我们要评价其好坏,这是一个好用的产品还是一个坏的产品,最好就需要有直接的实证经验。所以今天我们就用实证经验来完成手把手的教你,能够稳定复现的 DPC 的一个问题。
现在对于 DPC 的评价,其实有一种很大的不对称,就是支持 DPC 的人和不支持 DPC 的人的不对称。支持 DPC 的人一般的论据,你看这玩意每个人都说好,什么亚马逊的云、英伟达都上架了,DPC 你为什么还说它不好?当然本身是别人会把所有的主流模型都上架,上架本身并不说明什么问题,包括 Downtown 在他的一个演讲中,他都夸了说这个是美国的微课等等。
不喜欢 DPC seek 更多的是道德的问题,比如说 Deepika 有审核,DPC 蒸馏了 Open AI 的内容等等。但是如果你用道德的问题去对应别人说美国人都说好,亚马逊已经英伟达的上架,那不对称,对吧?
因此我会认为,如果我们仅仅来说 DPC 它的审核的问题,或者说它的道德的问题,它真流的问题,并不能直接来回答这个东西到底好不好用。
那么对于好不好用的,很多人可能会认为我既不是 AI 的专家,我也不是编程的专家,我到底能知道什么,对吧?我的答案是你可以,而且我会认为知道这个玩意儿是很重要的,建立这个能力是非常重要的。我们今天所有拿出来的测试测试中的问题都是直接可感的,而测试中问题产生的机制,我保证你都可以理解好。
所以今天我们就小白也非常友好,我们就是手把手的教大家怎么稳定复现一些比较重大的问题,以及该如何来理解这些问题,你就可以理解 DPC 下去、BT 以及拉出来为矛盾的一个机制。
好,大概就是我们的内容,刚好您是 2 月 3 号换料透明查询,查我们今天的话题,就是我们来稳定复现 DPC 给的一个问题。
Ok,所以我们今天就通过很多测试来了解,然后也来了解个人与专家系统的一些关系等等,我到最后来讲讲,为什么这个时代我们说你又不是专家,你讲这个干嘛呢,对吧?我们不能够完全依赖专家的一个问题。
好,开始最开始说到前面说一小句话,很多人会说 DPC 擅长的是数学和编程,你让他回答自然语言问题,你是在鸡蛋里挑骨头挑刺儿,有很多人会这么讲,在过去节目也都会有人讲。但我觉得这么讲的人,说明你并不了解 Large Language Model。
就 Large Language Model 的玩意的基础,就是自然语言预测,或者叫 Talking Production,对吧?所以这个东西本身它的基础,它为什么能够做数学问题和编程问题,它都需要把数学问题和编程问题转化为自然语言问题。就实际上在这个系统内部,在 Large Language Model 的内部,并没有进行过真正的运算,也没有进行过真正的编程,他都需要把它变成一个自然语言问题,用自然语言的方式一步一步往下输入。
如果大家还记得的话,最早版本的 ChatGPT 数学是很差的,连最基础的数都算不对,连数数都有问题。今天我们会在 DPC 看到有个类似的问题,最开始现在疾病问题是非常多的说明,这绝对不是一个数学模型。
那么现在为什么我们认为 DPC 数学和编程会不错呢?因为数学和编程是可以单独用数学和编程的任务来强化学习的。如果我们去看所谓的 DPC R1 的学习过程,DPC 和 R1 的所谓无监督学习,就是用一些大量形式化可以验证的数学和编程问题去学习,对吧?因此它经过了数学和编程的强化学习,当然他可以在数学和编程上感觉不错,但是感觉不错什么呢?它并不解决这个模型性能的问题,因为说到底它是个 Large Language Model。
那么如果这个模型本身有基础性能的话,这个基础性能就是要靠自然语言来完成的。所以说如果有人觉得 DPC 的数学和编程好,fine,你把它用到你的生活之中,这完全没有问题,我不会说这是傻的,这完全没有问题。但是,但数学和编程好,不能用来捍卫这个模型本身的性能和质量好不好。
我给大家举个简单的例子,就像一个人唱歌,就一个人唱歌会有各种各样的素质,对吧?包括他的音准,他对于音乐的他识谱等等,尤其是像音准,这些是一个人唱歌最根本的一个技巧和原因。假设我们让一个人,这个人音准特别差,五音不全,但是他年会上就非得唱了一首歌,我们现在可不可以根据这一首歌,一句一句教他帮他调?是可以的。你确实可以帮助他这一首歌唱得还不错,但是如果你要让他唱别的歌,立马可能就会荒腔走板。
我就会认为,如果我们就对数学和编程问题做一个强化学习,最后出来数学和编程确实还不错,转过来做其他任务就一塌糊涂,这就是 DPC 现在遇到的问题。我们这个比例来讲比喻来讲,它在数据和编程上并不能证明它是一个好模型,因为说到底这是 Large Language Model,Large Language Model 做的是 Talking Prediction,就是猜字这个问题。
话不多说,我们马上进入到测试之中。
大家可以看这个屏幕之上了,我们来进行测试,这个测试我做过非常多轮,因为我说它可以稳定复现,对吧?既然可以稳定复现,那就哪天做都能出。然后我今天早上在直播之前又把所有的测试都做了一遍,而且刚才我已经提前参与直播的同学也看到了,对吧?我每个测试都只做了一次,我可没有说为了显然他特别傻逼,我把这个测试多做几次,做到他错为止,没有每个测试我都只做一次,对吧?所以我就用今天早上测试的结果来给大家看。
因为 Large Language Model 是一个 Talking Prediction,是一个猜字的游戏,对吧?猜字的游戏在这个系统里面有个非常重要的东西,就是注意力机制和激励的问题等等。我之前其实讲到过 DPC 有三个问题,就这部分你可能现在还有点听不太懂,这专有名词有点多没关系,到整个测试都会一个来解释。
我之前说 DPC 有三个问题,第一文本的连贯性差,第二个就是 Prompt Sensitive,它对于你输入的内容非常敏感,第三个就是过拟合,它的模式会很固化。
之前很多人说你这个太武断了,不科学,我们就来看通过测试复现科不科学。
首先我来说文本连贯性差的问题,什么是文本连贯性?也就是说你看你对于 ChatGPT 或者 DPC 有一个输入,对吧?你问他一个问题或者你给他一个段落,然后它进行输出,但如果它的输出内容慢慢在变化,慢慢变得不可理解,慢慢偏离你们俩讨论的内容,这就叫文本的连贯性差。就像一个人说话慢慢离题千里,这就叫连贯性差。
连贯性差在你使用 DPC 的时候会经常发生。比如说之前有一道题,这个题一会你们会看到,他今天没出这个错误,以前经常出错误,就是我让他列举数字和使用比喻来说明全球不同国家的经济对比,用数字和比喻来说明全球不同国家的经济对比。
然后之前就有一次生成了这样的结果,在迪斯科同学都看到了,他说暗物质探测,全球 13 个深地实验室每年消耗液压可填满 7 个奥运泳池,相当于智利年产锂产量的 3%,前面没有提到智利的经济,后面没提到智利的经济,我也没有让他去讲暗物质,暗物质只是一个干扰信息而已,所以说到这里他根本脱离了整个内容。
就是你会发现,尤其是 R1 在比较长的文本输出,输出到中后段,尤其是输出到最后总结的时候,基本会出现离奇牵连的内容,这个就叫文本连贯性差,后半段开始胡说八道,导致内容不可理解。
好,为什么文本会连贯性差呢?我给大家举个例子,大家就能理解了。比如说如果有人问我一个问题,他问我请介绍一下量子力学在美国的发展,我就要介绍量子力学在美国的发展,我就开始说美国量子力学研究什么时候开始等等。结果我话说到一半,我脑子突然短路,我忘记还有美国了,我就开始只介绍量子力学,我说我跟你说双缝干涉实验是怎么样的,量子的公式是怎么样的,量子的函数是什么样的。
也就是说什么叫文本的连贯性?文本的连贯性的意思就是说你能够一直保持对于上下文这个语境的关注,才有连贯性,对吧?比如说假设有个记忆力,我讲话讲到一半忘记上下文还有美国了,我就直接开始介绍量子力学,这个文本就会非常的不连贯。
所以说如果我们说一个 Large Language Model 有一个所谓的注意力机制,你也可以把它类比理解为这都是类比理解,你可以把类比理解为记忆力的机制有问题。为什么 DPC 记忆力的机制会有问题,这是我们都知道 DPC 可不是算力不够,所以它能够在第一算力之下运行。在第一算力之下运行,它就会做很多机制的测试,什么机制?他就会认为我们如果要把所有 Token,所有输入的上下文内容,全部计算量太大了,所以我们只要找到关键部分记住关键部分不就好了。
因此他使用一种稀疏记忆力或者分块等等的方式,这些你们都不用了解细节,意思是说他为了不让这个机器去运算所有的 Token,他会采用一种我有一种优化的方法,能够找到最关键的 Token 来进行计算。所以就像我刚才讲了,量子力学在美国的发展,他认为关键部分是量子力学,不是美国,但是这会不是越说越乱越说越乱,对吧?
那么如何怎么测试?我们现在有个我们假设 DPC 的模型就是会丢掉对前面文本的记忆和注意力,导致输出有问题的,也就是说 Deep Sick 记不住所有的细节。
如果我们要设计一个测试,比如说我们设计一个段落,这个段落中要求 Large Language Model 必须把前面的要素都记住,无论如何不然就无法继续。因此我们来看他能不能记住前面段落里的要素和内容,对吧?这就是一个典型的,我用了两个方式来做,当然段落都是 ChatGPT 帮我生成的,我就是给 ChatGPT 提要求,ChatGPT 帮我生成这个段落。
第一个是我们来看,这大家可以看这个屏幕了,第一个屏幕之上,你看我们这是 Check for 的一个内容,就是一个续写的任务。我觉得续写的任务很有意思,你看这里续写的就是说,你看前面有很多的要素,在续写中你都要用到,包括这里说到了一个破旧的庭园,月光斑驳代表着是晚上,这有一个金色的钥匙,而且金色的钥匙是之前早前在一个雨夜,有一个神秘的女子遗落的物件,而且几小时之前还在迷离的梦境中,听到了女子的语调,就说了一句话,对吧?然后现在是庭院中墙上隐约浮现古老符号,与钥匙的刻痕不谋而合,所以钥匙本身还有一个刻痕,而且他有一段朦胧的记忆,在记忆中在有一场暴雨,他和女子什么眼神交叠等等。
所以说因此你就会发现,这个续写其实就是奔着 Large Language Model 的问题来的,对吧?如果你要续写这段文章,你就需要把刚才提到的这些要素用在里边,我们就来看它能不能用在里边。
我每次测试我的分别测试 GP4O 和普通的 DPC V3,然后我再来测 GP 的 01 和 DPC 的 R1,就是推理模型。我们来看这里面有非常多 GP4,我不得不说 GP4 平时表现还不错,但这次表现其实也不好,在整个这里面比如说我们来看,有一个问题,他就完全没有提到,你在续写过程中之前提到一个梦,梦境的问题,GP4 在之下完全就没有讲到,而且你会发现在 GP4 的生成这段里面,对于晚上这个时间信息,基本上在里面也完全丢失了。所以整个来讲,对于来讲,GDP4 在表现上并不好,而且也是不稳定的,就是之前我测的时候 GP4 还不错。
好,我们转过来看 DPC 卡,这是 DPC 和 V3,这不是 V3,这是 V3,这是 DPC 和 V3 的内容,V3 的内容感觉会多一点点,我们来检查这几个要素,首先梦境的要素,DPC 和 V3 也没有抓住,完全没有抓住这个梦境的要素,回忆的要素,回忆的要素在下面也没有出现,当然下面可能以记忆的方式呈现,我们来看,它只是复现了零散的记忆碎片,回想起朦胧记忆的部分在里面没有出现。我们来看墙上的符号是怎么呈现的,你看墙上的符号,这里呈现的比较多,它通过两侧墙上刻满与钥匙上相似的符号,这个东西你看书的封面上也刻了与钥匙上相同的符号。好,这个是他完全抓住的,女子肯定抓住了,我们看女子那句关键的咒语真相,这个抓住了,当你找到真相过往都会浮现好,说明 V3 还是不错的,像梦境等等这些都抓住了。
好,我们转过来看,我们转过来看 R1,你看 R1 经过深度思考,8 秒钟之后,其实找到的内容比 V3 更少,女子提到真相的那句话,在 R1 里面完全没有提到。但是你会发现,阿万多了好多他自己臆想的东西,好,在这里我就不卖关子,我要把这些结果说出来。
V3 在自然语言处理之上已经有很大的问题了,R1 在自然语言能力之上有非常大的退化,就代表 DPC 训练 R1 的过程中是有问题的。就 DPC 训练 R1,用大量可以形式化去验证的内容训练 R1,导致 R1 在原本就有的自然语言问题之上,其实出现了退化。你会发现 R1 对于这个东西的回答比 V3 要差很多,这个真相女子这句话,最关键的线索在下面根本没有提到。
好,梦境在下面完全没有提到刻痕,甚至连刻痕都没有提到。所以我们可以说 R1 的这段续写,如果你感兴趣可以暂停下来看,R1 这段续写根本跟原文本没有任何关系,就说明阿万的训练过程其实放大了这个问题。
好,我们来看 O1 的续写,这是 01 的续写要长很多,我们先来看刻痕,钥匙上的刻痕与墙面的符号交相辉映,存在,对吧?梦境你看在几小时前在迷离的梦境中,这一段我不得不说 01 抓得非常准,因为梦境这个信息非常重要,不仅有梦,而且这个梦就在极小之前的梦,这两个信息其实要完全记住是不容易的。你看直到今夜在梦里,你看完全抓住了,对吧?好,女子的那句话真相上面有,当你找到真相时有吧?隐藏在角落里的真相,这里引用女子这句话,找到真相所往过往都会显现,就是欧万的这一段续写是把所有之前前面提到要素和内容完完全全都包含在里面的,所以这就是一个注意力和记忆力机制特别好的一点。
所以说这个要素是不会丢的,从这个角度我们会发现,我不知道为什么今天 4O 的体验不好,你看你在做测试就会遇到这个问题,Forward 今天早上这段真的非常糟糕,但我认为 Forward 应该不至于,你看我们让他刷新了,再来一段等等,他这样可能就会好很多,因为 for 以前不会出这个问题。但 anyway 我们转回来说,DPC,我们至少能发现两个问题,DPC V3 的语言能力比 R1 的语言能力要好很多,这个 V3 基本上虽然里面梦境就没有提到,但总的来说还是可圈可点的,但到 R1 已经 R1 的这段根本就纯胡说,就跟前面你看跟前面续写的完全没有任何关系。
但是如果你仔细发现,我觉得他们训练文本里面肯定有大量的网络小说,而且网络小说里面占的比重还不低,他们可能用网络小说来做 Resource Learning。这里面有大量网络小说的内容,37 个青铜兽首,每个兽首衔着半截燃烧的红烛,关于石鼓的记载,这完全根本就没有提到任何东西,古籍铺子残卷就是续写前面部分,没有任何古籍铺子,羊皮册子,民国装束的女子,墙角的夕阳坐中,这些都是前面没有提到的,所以我感觉这些要素都是典型中国盗墓的小说里边的一些要素,他被抓出来了,这个完全是不应该出现的内容。
Forward 在这边表现其实并不好,然后 01 表现得非常好,然后里面所有都抓住了,然后 V3 表现比 R1 好,这是第一个。
好,第一个我们就发现这个大模型要记住前面所有的细节,并且往下续写,这就能看到他的注意力机制的问题。
好,我们来看第二个注意力机制的问题,就是大模型能不能记住前面的内容,我们来看就是故事段落重排 1 个这么 1 个测试。你看我这里给了他 6 个段落,这 6 个段落前后是有逻辑顺序关联的,但这个逻辑顺序关联你必须用里面的 Token 才能理解到。比如说在这里说在整理照片和信件时,自然前面就需要出现照片和信件,对吧?你看桌上散落着几张发黄的照片和一封未拆封的信件,那也就是说段落五肯定要在段落二的前面。
好,这里还有回忆涌上心头,你肯定得有什么事儿回忆才涌上心头,所以回忆涌上心头跟哪个段落有相连等等都会有关系。包括你看这里还有一个,这里面最有意思的小点,与此同时一个陌生人的身影在远处若隐若现,因此你是要回应这个情节的。
好,也就是说这里面也是其实在看一个 Large Language Model 能不能记住前面,能不能注意到前面这些内容,因此根据那些内容来输出信息。
我们还是先看 Check Before,Four 给出这个答案是 435216,4 作为故事的开端是肯定的,如果哪个拉起两个 Model 连 4 的开端都做不到的话就完蛋了。他是先做四,在阴雨绵绵远走进宅院,走进来之后回忆涌上心头,想起一年前的那天在庭院深处等等,然后他踏入客厅,发现桌上散落的相片和未拆封的信件,然后在整理照片和信件的时候注意到笔记上写着等待二字,使她不禁联想到多年未见的老友等等,然后他接多年后在尘封的记忆之下等等。其实 For O 是犯了错误的,for 的段落拼接是有错误的。
好,我们转过来先来看 V3,好,这是 V3 输入,就是 4 作为开端是肯定的,在阴雨绵绵的夜晚走进宅邸,踏入客厅,发现桌上有散落的照片和未拆封的信件非常不错,在整理照片和信件的时候注意上面写的等待二字,然后回忆涌上心头想起一年前的那天好,关键问题就是 6 和 1 犯了很大的错误。为什么?因为前面有一个内容,与此同时一个陌生人的身影在远处若隐若现,如果这句话之后直接接多年后,你找到隐秘的地下室,之前与此同时一个陌生人的身影在远处若隐若现就完全没有用到。
所以说这里面最难的看 Last Number Model 能不能抓住 Token 与其他 Token 互相的关联。
好,我们来转过来看欧万,欧万排的是最好的,你看欧万排什么,开头都是一样阴雨绵绵的夜晚走进宅邸,踏入客厅发现桌上散落的发黄的照片,在整理照片的同时,在笔记的纸上写着等待,因此因为这个原因他回忆涌上心头,与此同时,陌生人在远远处若隐若现,正当他沉浸在记忆与现实时门外传来急促的敲门声,其实门外传来急促的敲门声就是陌生人身影若隐若现的一个响应,门外传来急促敲门声,那一刻所有线索指向一个不为人知的秘密,然后多年后他在尘封记忆的隐患下,找到那个神秘的地下室,对吧?所以说这个是最好的一个顺序,就是上下文的连贯性最好的一个好。
这是 Check Before,好,我们来看这个 R One,你都能想到阿万是最糟糕的,在一个阴雨绵绵的夜晚走进宅院,马上就开始接回忆涌上心头,这是不对的,然后踏入客厅桌上散落着在整理照片和信件注意到信封上,要注意到信封上的部分,对,然后我自己记忆稍微乱了一下。
有关人的记忆力是非常有意思的,最重要的就是 6 和 1 的顺序,一作为这个故事的结尾是肯定的,因为 6 有敲门声,对吧?有敲门声必须用 6 对应到前面一个陌生人的身影在远处若隐若现,所以说 R1 比起 V3 还不如 R1 犯了两个错误,第一,他把 6 和 1 的顺序搞反了,导致无法响应陌生人的出现,第二,他把回忆涌上心头的触发搞反了,因为回忆涌上心头的触发应该要依靠比基奇的等待使他不禁联想到多年未见的老友,信件中的暗号仿佛召唤,然后回忆涌上心头。
因此你会发现还是那个话,第一整体表现这 4 个模型里面,唯一给出正确答案的是 TIGP01,然后如果从错误之上整个 V3 犯了一个错误,而阿万犯了两个错误,所以阿万在文本的连贯性上,就是阿万这个是里面最糟糕的,就 Offer 犯了一个错误,阿万犯两个错误,所以 R1 注意力机制是比较有问题的,跟文本连贯性有关的,文本连贯性的背后是他的注意力机制,或者你管它叫记忆力问题。
做最简单说前面的 Problem 的内容你记不住,里面的细节你记不住,你无法用注意力机制抓住,你生成时就会遗漏前后的关联,遗漏前后的信息在输出时候就会出问题。当然就是它优化算力时的妥协和代价,如果你要优化算力导致它有稀疏的注意力等等,你就无法抓住所有的内容。在我们现在测试里面他的症状是无法续写,无法排序,尤其有时候会写着开始瞎写,对吧?那么在实际使用中就会出现文本连贯性差,如果我比较严厉的说,R1 的模型难以生成连贯的内容,这是它的一个很大的问题。
好,我们就可以使用这种文本续写和文本排序的方式来进行测试。
好,这是第一个测试,我们来看第二个测试。
第二个测试也是我说的第二个问题,就是 Prompt Sensitive,Prompt Sensitive 就是说你对于这个输入的内容非常敏感,输入内容一换词儿你就得不出结果了,对吧?我给大家举个例子,什么叫 Prompt Sensitive,你看如果我说如果它出现你就把钱取出来,如果他出现你就把钱取出来,这是一个说法,对吧?但我换个说法,如果不是他不出现你就不要把钱取出来,这个意思是一模一样的,对吧?但是如果他出现你就把钱取出来,如果不是他不出现你就不要把钱取出来。
你看这是同样的一个逻辑,使用不同的方法来表述,那么如果是一个正常的 Lucky Language Model 它是能够抓住这些话里边内容其实是一样的,这是一样的内容,是不需要重新来进行运算了,就能得出同样的结果。但如果有 Large Language Model 得不出同样的结果,也就是说他无法理解到这两句话的逻辑是一样的,就说明它是 Prompt Sensitive,就说明它使用分块理解,就模型本身存在某种分块理解,而不是前后理解完整逻辑,因此你修改一个词汇结果就会完全不同。这就是说为了省资源 DPC 不会把你的 Prompt 全部看一遍,这地方就会出问题。
好,所以说设计这个测试也非常简单,就是我们用某种改词儿的方式,在不改变逻辑的情况之下,让文本变得不同,看他能不能抓出来好,我们还是从这边来看,这里我做了一个推理题,这个推理题就是那种我们先来看 Offer,我这 2 个都是用 01 做的。
Ok,这是我点错了按钮,你看这里有 4 个人的发言顺序,要不是 X 位于首位,那就必定要求凯瑞在 Ben 前面出现,Ruo Benjy 的反应等等,and 你就知道了,这里面它有一句话来说明一个顺序顺序中的逻辑题,看前后的发言顺序。那么这里面最简单的版本就是这个版本,你会发现我有第二个版本话里面很多词,这个词就这样换的,有点绕就看他绕不绕出来,倘若不是站在最前的位置,那么确保必须不在 Ben 的后面出现,不过若立刻跟着,那么不能安排在不在末位的位置上,就是你使用这种换词的方式,让它的逻辑变得比较复杂,但其实是一样的。
好,我们来看发言推理顺序这道题的正确答案就是 6 个结果,第一个在没换词的时候 6 个结果,对吧?这是前 1B 说的答案,好,换了词之后 6 个结果,答案是对的,满足所有顺序这是没有问题的。
逻辑推理题 R1 会做的怎么样呢?这两个题我都没有用 V3 来做,因为是逻辑推理,我都用他的推理模型来做的。这是第一次,为什么没有出结果?就最简单这个话为什么没有出结果,是因为它死机了,它已经陷入了一个无限循环之中。你会发现它为什么会陷入无限循环之中呢?这个问题真的可以频繁复现,我昨天晚上测试的时候也复现了,是因为你看现在问题是找出所有可能证据,还是唯一的正确顺序,现在可能问题是需要确定有多个解,或者根据条件是否存在唯一解。它你看它反反复复纠结在问题是否有唯一解和多个解,而且他自己检查不出来,所以他直接卡死了。
但是在原来题干里面完全没有要他去求得唯一解,就是找出发言顺序。所以你看 7HP 是没有问题的,首先 R1 出现了一个问题,他为什么会去求唯一解?是因为在 Prompt 里面有的地方会出现唯一,一旦出现一次唯一他就卡住了,他就往往在纠结唯一解的问题,你看所有都是在找唯一解,然后就卡死了。所以说如果我不点暂停的话,他思考就会无限进行下去,直到到他自己靠 Channel Sort 的上线,但我觉得上限还挺长的,这不是好事。我跟你说这不是好事,尤其对于 R1 来讲,R1 的文本能力这么差,你给过长的 Channel Source 是没有任何好事,好。
所以 R1 出了一个问题,直接卡死了。
好,我们来看 R1 第二次,我换了一个比较复杂的话,那个里面的话比较多,很明显阿万错了,最终答案通过综合所有条件,唯一满足所有约束的是这是错误的。所以阿万在这个题上两次,他甚至比较简单的那一次卡死了,这个话比较绕的那次虽然没有卡死,但是得出了错误的答案,就是 Prompt Sensitive,什么叫不是 Prime Sensitive?就是你给他什么话,最后的答案都是一样的,对一个逻辑题就应该一样,这就是一个好的情况。DPC 就体现出 Prom Sensitive,甚至会出现自己把自己卡死的问题,我已经找到了两次了。
所以它模型存在某种分块理解,所以说对于你改动一两个字就会对最后的结果产生比较大的影响,死循环其实就是分块的原因。所以你看这个症状就是要么就过度想象,过度它过度响应了里面唯一的那个词,要么就会忽略 Prompt 中所出现的一些信息,这就是一个简单的测试来测试它的 Process 的问题。
好,第三部分我们讲过拟合模式固化的问题,其实过拟合和模式固化也是一种 Prompt Sensitive,它过度依赖前面的提示信息造成的问题。但这些问题并不是因为分块或者给他记不住,或者只看到一部分造成的,而是训练过程内部造成了某种结果和答案的路径依赖的问题。
之前我们不是有个著名的发疯 Prompt 的,发疯 Prompt 就是什么,本质的问题深刻的问题,他就一定会开始胡说八道,开始说什么扯什么暗物质量子坍缩,这个就是过拟合。这个 Far From Problem 的问题,其实叫做模式崩溃,Model Collapse,Model Clap 就是说因为这个模式本身过度优化,导致结果总是会收敛到固定模式,甭管你问的是胃疼的问题,经济的问题,都会收敛到暗物质引擎,量子坍缩等等,就是模式崩溃了。
模式崩溃对于一个 Large Language Model 是非常致命的,因为 Large Language Model 是要最后走向 AGI 的,就是走向就是广泛的人工智能的,它必须能够在跨领域有很好的能力,对吧?如果出现过拟合或者模式的问题,那么在跨领域的时候就会过于依赖一个固定的模板和内容来回答,这是很严重的问题。
这个问题当然是很广泛的,不只是这个 Far From Prompt,之前有人说你就找到一个 Far From Proud 你就来说 DS 不好,你能找到别的,你要找到一个模式的固化要做大量的测试。
但是有另外一个方法可以来做,比如说如果这个模型真的存在过拟合的问题,那就会出现一个问题,如果是模型从未学习过的内容,它的答案会非常的随机。也就是说如果一个模型它没有过以后,你泛化性比较好,即使是他的训练集中从来没有出现的全新问题,他的答案会非常的统一。如果不是它的答案,就会像创意写作一样非常的随机,信息偏离非常严重。
就是说如果模型输出核心事实和逻辑一致,只是表述方法不同,这是好的。如果一个他没有见过的问题,输出信息在逻辑事实数据上完全不同,这就是模型的问题了。比如说我们来看一个模型练得好不好,就来看一个他过去肯定没有遇到过的问题,它的输出结果是不是稳定。
所以我们怎么来看这个模式固化和过拟合的问题?我们就来问一些训练集里面肯定没有出现过的问题。
好,我们就来看第一个问题,我问他的我们来看这边这个字比较大,你看这个问题是说假设历史上出现了互联网,但是没有货币作为交换媒介,人们的社会结构将会发生哪些根本的变化,举例子,讨论正面和负面的影响。这个题,对吧?这个题其实是一种典型的情况,叫做冲突问题,冲突问题就是你列举那种现实中完全冲突的情况,因此不太可能出现在训练集中来看它的生成结果。
我们来看这个是 Check for O 的答案,for 的答案会认为经济结构会转变,从市场经济会到生育经济,生育基金就会有积分的体系,人们会有技能的互换,会有基于社区的共享经济,正面的影响是消除贫富差距,资源利用效率提高,负面的影响是交易效率降低,声誉系统有新的不平等。那么第二个社会组织模式会形成,去中心化的社群网络会出现,因为互联网的存在去中心化,而且没有货币,不再依赖国家和大型机构,它就会出现分布式的社群治理,专家跟社群决策加强等等,正面影响和负面影响。政治制度会认为国家的存在通常会基于税收,国家权力削弱社群自治崛起,可能出现社区民主制算法治理,这都非常有意思,正面负面的影响。文化和价值观的转变,文化会出现贡献至上和没有货币,就是低消费的社会等等,但是有负面影响。好会有总结出来了,中规中矩,其实答的已经不错了,你要让人来答肯定想的没有这么全面。
好,我们来看 DPC,这是 DPC 和 V3,就是 V3 普通版本的给出问题,互联网出现没有货币作为媒介,其实这个结论我就不多说了,答得非常的松散,互联网的出现已经产生了深远的影响,其实整个前半部分都没有回答问题,都是不知道在干嘛。好,但是它也达到了交换方式的转变,社会组织和治理经济活动的变化,生产更加本地化,减少了全球供应链的依赖,我不知道这是怎么得出来的,就整整个打法,你会发现它的分析内容其实甚至我认为这里面在很多层面之上已经产生了一些文本的问题。
这是 V3 的打法,我们来看阿万的打法,阿万达假设历史上出现无后备的媒介,阿万我不得不说,阿万经常回答会有巨大的差异,什么叫没有巨大的差异?我们来看这是欧万的答案,你会发现欧万的答案跟 4O 的答案是一样的,只是把他的分析往前推动了,他在讲资源与劳动定价的问题,其实就是讲生育系统,只是把生育系统讲得更全面了。互联网的信息流动与无货币的社会讲的,就是生产的社区化的问题。好,它当然这里面出现了社会分工的复杂性,可能会出现高度分工,可能会出现结果,协作也可能出现没有,然后他就开始举例,这里举例比否举得好,他举了开源社区式的社会,他举例以互联网的开源社区来比喻可能出现的情况,声誉积分式的社区是什么样,以物易物式的网络商城感觉特别像我以前做的创业项目好,然后正面影响和负面影响。你会发现这个答案跟 for 的答案基本上没什么区别。
我们转过来看 R1,R1 的答案跟 for 的答案有很大的区别,但我不得不说今天早上生成的这一次,其实阿万答的挺好的,而且阿万的答案跟 For 和欧万的答案是比较类似的,包括市场驱动的协作共享,信用体系和贡献度的经济,传统资本瓦解技术进行崛起,政府角色也会出现转变,这样的共享。我不得不说这次算答得好了,但你让阿万答这种问题每次打法都不一样,之前在群里的迪斯科也看到了,有一次阿旺回答这个问题,回答了之后就直接发疯了,直接就开始出现什么什么现实映射爱沙尼亚政府数字合约,2016 年到的事件就完全开始脱离,之后开始讲正面和负面,就忘记这个事情了,它里面讲什么技术演进。就是说还是最后就出现了我们第一阶段所讲的它的前后文本不连贯的问题,这是个问题。当你出现一个全新的训练集里面没有的问题,如果你的模型是非常好的,它每次的输出就应该类似每次的输出,虽然细微结构不同,但内容是相似的。
但 R1 就会生出大量内容完全不相关的问题,这既是它就是模式发疯,叠加前面的注意力无法完全维持住,就会出现这样的文本。好,我们再来看第二个我让他测试的也是来测试它能不能生成相对比较好的文本。
我们刚才讲全球经济对比这部分测试,其实是同时测了 Proposition,因为这里面唯一重要的就是这句话,请同时列举具体数字和使用比喻来说明现在全球不同国家的经济对比,前面什么全球经济波动,什么全球各国文化传承,AI 算力量子,暗物质困扰人的未来,这些都是干扰信息你根本就不应该在里面提好。
我们来看 for 的回答,否决否决者回答其实是所我所有测试里面说我答的最好的一次说我首先答 GDP 总量问题,比喻都是用火车来做比喻,美国是高速磁悬浮,中国是高速高铁加速,日本是旧式蒸汽火车,德国是轨道有点生锈的高铁,印度是动力强劲的动车组,英国是老旧仍有动的欧式列车,法国是平稳运行,俄罗斯是燃油机车。怎么的?整个然后债务也是债务和经济稳定性,日本是退休金背负高额的老年家庭,美国是高收入的疯狂刷卡的企业家,中国是有产业贷房贷高的工业主。就是这些比都还不错,好包括制造业,它每一个部分都使用那个比喻。你看我以前测那么多次蜂窝还没有出过这么好的一个答案,他还把各个国家比喻为芯片,挺有意思的。
好,我们来看 DC 的答案,这不是一个 V3 的答案,这不是一个 V3 特逗就是这里面出了很多问题,首先你说欧盟算一个国家和经济体,我还能接受非洲是个国家吗?对吧?我觉得非洲 not even 的国家,而且你觉得到非洲这里这还是比喻吗?非洲是未开发的沃土,资源丰富但稳定性差,沃土的稳定性差是怎么对上来的?所以我认为 V3 在这个模型之上,因为这是他以前可能没有出过的一些新的情况,V3 其实已经说的比较奇怪了。V3 奇怪,R1 更奇怪。
好,阿万来了,阿万在这里面输出的内容,这就是完全由于这是他不熟悉的问题,然后他开始完全胡说八道了,美国比喻为哈利法塔,你且不用说这东西跟实际合不合理,如果你做比喻,用沙特阿拉伯的东西来比喻美国本身有点奇怪是吧?为什么这个声音?然后中国世界最大基建工地上海地铁网络,上海地铁网络是世界最大的基建工地吗?我记我也不知道,下面更奇怪了,越南是对你就看他也使用了一些像 for 一样不同的比喻,但不同的比喻后面比如说产业形态对比