翻电Special 机器时代之心,人与chatGPT的终极对比 VOL.112
我们再来做一期chatGB的节目。这期节目呢,会比上一期会更成熟一点。
我觉得这个话题是一个非常好的话题啊,因为自然语言的人工智能,实际上我认为扮演的是一面镜子的角色,因为它采用了与我们如此类似的自然语言的方式交互,这其实是一个对我们自己真正了解的一个绝好机会。透过这样一面非常好的镜子,我们来看这面镜子才能看出我们自己是什么样。
所以这一期啊,我们就是以。
这个chatgpt这么一个人工的自然语言处理程序来当做这一面镜子。透过这个镜子。
其实呢,我们要看出我们自己,当然这个终极对比就可以回答那些让我们很担忧的问题啊,就是到底哪些东西会被替代,哪些东西不能被替代。
这样的一个问题。好,我们现在开始。
大家好啊,欢迎收听新一期的翻电special节目。我是李厚辰,在正式开始之前啊,我先说一个我对这个节目的想法,我现在刚刚开始录啊,但是我做这个提纲做到一半的时候我就有一个很明确的想法,这个是饭店有史以来最好的一期special节目。
好,这期节目就是透过这期节目,我觉得你能够看到饭店一直以来强调这种非常跨学科的这种思考方式,到底他的力度和力量在哪里,他如何可以切入到这个人工智能的话题啊,这绝对是有史以来最好的一些special节目。
好,其他的这个自吹自擂我不做了,到底是不是有没有那么好,我们接着往下来听好,我们刚才已经提到了,这一期呢是要做PPT与人的终极对比,以及啊,我们去了解这个机器之心。
那么呢,我们从最开始我们对于这个AI的一些想象啊,现在这个chatPPT其实有很多问题大家应该已经听到了。我们上期节目呢,其实主要就是在讲现在的一些局限,但是对于当前的技术哲学来讲啊,很多人啊,对于这个机器还是有一些假想的,比如说以下几个假想啊,都是我们在这期要慢慢去瓦解到的假想的一个假想呢,就是算法暴力的假想,因为现在这个其实还受到这个芯片运算速度和它能够投入资源上线的。
影响对吧?比如说他现在呢?有这个呃,1750million这个billion这个规模的不还不是millionbillion,这个规模的primer就是它的参数去调整它本身的token树上烈上线的也是有上限的,他的学习范围呢是46个T对吧?那我一般我们就会认为啊,比如说我们要给他300个T的资料学习呢,要我们把这个parameter的数量进一步翻翻呢,我们让他有这个trillion级别的这个参数,会不会呢,它就会变得更厉害,会解决现在的很多问题。
这个是我们对AI的一种假想啊,就是算法暴力,假想这个算法量数据量一旦上去呢,它就自然地会解决一切。
啊,在这个基础之上,我们当然能想到这个gpt非但不会是他的终点,那他未来还会在现在基础上爆发式的增长啊。
那应该是拦不住的好,这是第一个假设,第2个假设呢,其实也是这个方法和模式无穷假设,因为很快大家应该就会听到啊,这个gpt的模式,其实呢本身是有一些局限的,它不可能变成真正的通用型人工智能,就是所谓的强人工智能,那我们也会认为啊,从这个像RNN啊,就是从这个神经元的什么卷积神经网络啊,到这个transformer。
就是这个变形金刚,不是变形金刚。就这种新的算法,那一定还会有新的算法,这个新的算法子子孙孙无穷匮,也一定会产生更新的方式,其中必有一个方式可以结合这个算法暴力啊,这个算力的暴力和数据量的暴力,最后呢,变成比现在厉害的多的东西啊,我们都会被替代啊,这是第2个,但不管是替代还是拿它赚钱吧,你呢都会有这个技术无上限,继续爆发的这个想象。
第3个想象呢,就是这个HPT啊,他是一个比较泛用型的人工智能,那么呢,泛用都这么厉害了,如果啊,再给他一个细节领域,给他一些专门的训练,给他喂一些专门的数据,那还不起飞了,对吧?就从泛到专也会有一个假设,认为泛用的这么厉害了,那让他去做一些更细节的任务啊,在这个细节任务之上去调试一下,那他肯定会在某个领域马上大爆发起来啊,对吧?我们就会有这样的第3个假设。
第4个假设呢,就是其实是一个更接近呃,哲学意味上的假设,就是我们对于它的一个智者假设就是当我们看到一个程序在使用自然语言和我们对话和交互的时候我们有时候就不得不去想啊,它背后是有一个意识的,他跟我们一样是在比较雷同的意识条件之下运行的。
所以说呢,我们会把他的意见,把他的看法当做是一种具有判断力的看法,这2天网上已经非常多了,就我们拿一个问题去问。
LGBT他说出一个答案,我们觉得,哇,你看,连机都这么说等等等等,不管是讽刺吧还是认真的,就当我们面对一个使用自然语言和我们交互的东西呢,我们难免不会去想啊,它背后的意识运作和我们是一样的,所以我们会用这种方法去说如何让学会更多的知识,如何让掌握这个这样的一些推理的能力,等等等等,就会这么去想。所以以上一些呢,是我们对于这个现在这个AI的一些想象,在所有这些想象。
之下,AI不管是在单独领域还是在file领域,都会变得越来越强。而且这个墙呢,是无上限的,而且就在最后一个假设之下,这个想法最终会让他成为比任何人类的智者智力程度分析理解能力都高的一位智者。
那这个呢,到最后实际上是对于人本身一个很大的否定了。
当然,这是一个比较哲学的方面。
好,那我们这期要来做什么呢?
上期我们已经说到一下,这期我们就会进一步来细节的讲这个机器之心是什么样,他虽然输出的内容和我们类似是自然语言,但背后在什么程度之上完全不同。
当我们真正深刻地理解了这个不同,我们可能对于以上的种种假设和这背后我们构成这个技术性的世界图景,就是会产生一个和人类具有类似意识的强大的意识体这么一种世界图景本身的一个瓦解是很重要的。好,我们就来讲讲这个背后的不同啊。
呃,上次有个评论啊,说你这期节目都是废话,一个是人,一个是机器人,当然不同了,所以背后是废话,我不知道他这个说法从何而来啊,
首先我们首先要意识到的相同性。
这个相同性是很重要的。
尤其是从维特根斯坦哲学的角度啊,语言本身是工具性的,从维特根斯坦那里本来就模糊了所谓语言和思考的关系,尤其是语言语义的关系。在维特根斯坦那里,语言吗?
就是语言游戏吗?很多语言游戏绝对是不以语词背后的实际意义做支撑的,也不会与语词根世界的职务关系作为支撑。
这个语词本身是可以构成他自己独立运作的方式的。这个如果大家感兴趣,可以去听find2.0的第二章啊。
我们其实讲了很多很多内容了。首先来讲啊,语言是来做事的,语言呢是有工具性的,这个语言背后有没有思想,这些其实本身就没有那么重要啊。
所以说现在的很多输出对我们来讲已经是可用的了,在可用这个层面之上,它与我们的语言其实没有差别。
因此我们不必去深挖背后有没有什么思想啊等等的这些思想的假设是不必要的啊。一会我们也会说思想假设不必要什么东西。
就是必要的啊这么一个问题。所以说他本就不同,根本不构成这个事儿的根本性差异。因为语言是一个工具性的东西,就是很多不同的工具。
所以说我们要问的第2个关键问题就是说因为语言是工具,所以chatPPT或者gpt这个方式构成的工具,什么能做什么做不到?
如果从工具的层面之上我们人类语言所能产生的工具价值它都有。我们根本不必去问他背后是真是假对吧?
所以我们就要去问作为工具,它的局限是什么。我们不能说他没有意识,是他的局限在语言问题上,有没有意识不构成局限,语言就是工具。
我们就是透过第2层的询问啊。
从语言工具论的基础之上,gpt能做到什么不能做到什么。再反过来问,人的意识到底是什么样这么一个重要的问题。所以我们不是从人的意识的特殊性和伟大性往外推,是从工具的表象和现象差异之上往内推啊。所以说我们首先要认可啊,这种相似性和语言本身的工具性,我们不把语言做浪漫化的理解。
来看这个问题。
好,当然啊,就是我们现在也有很多人认为啊,这个就是很厉害啦,人的思维不过如此啊等等等等啊。呃,
这当然是由我们对AI和对语言本身都缺乏很多了解,呃,在,因此我在节目最开始才讲啊,这个人工智能是一面特别好的镜子,正是因为有着一面镜子我们才能照出来。
哦,原来哦,这些事儿就照出来什么呢?
我也不卖关子,造出来的是我们认为很普通。
很频繁的语言功能本身有多么强大。因为过去一说到人的语言什么厉害,那就是写诗写小说了。后来发现啊,这个写诗,其实他能写诗,歌词小说都能写,其实我们才知道,哦,原来人的意识要被超越了,但我们根本不知道人的意识能力,厉害之处,根本不是写诗,写小说写诗写小说,应该是这个浪漫主义之后,我们才觉得人的意识这方面重要,当然也不会是逻辑推理啊,逻辑推理数学能力,这些机器应该比我们都要强。
所以人的意识到底厉害之处在哪儿呢?我们就是对着这个AI的镜子一照,我们才照出来。
照出来之后呢,我们才对于语言的运行方式,对于我们的意识本身呢,更了解啊。
而这个了解本身正是因为有chatgpt这个了解才变得必要啊,我觉得我们就是做这么一个事儿啊,好,呃,当然确实是很多,我们其实都在饭店里面,第二章哲学研究里面已经有很多梳理了,这期节目之所以能做跟我们已经完成了,经过了哲学研究那张有很大的关系。
好,我们就来讲啊,我就不卖关子,马上开始。我觉得前面这一段我们已经铺垫的足够了,包括有什么问题啊,我们这个技术途径是什么样?这个技术是你背后我们如何去破除这个语言的浪漫主义想象,我们就从语言工具论上来讲这个问题。
好,我们现在就来说说这个事啊。
我们还是从这个chatPPT到底怎么运作开始。
他跟人呢,语言使用有很大的区别。呃,这个我们上次也讲了,它本质上呢是一个猜字游戏,什么叫猜字游戏啊,我就从一个最简单的慢慢讲到chatgpt,其实在这个之前我们早就见识过具有猜字游戏功能的计算机程序了,就是输入法的联想输入。
对吧?比如说我打白日,然后我打YISHANJIN这个输入法就开始说依山尽好,我一点我就这样出来,白日依山尽,他怎么能知道Yi就是依山近呢,那自然啊,是他的语料库,里面存了这些诗词对吧?
所以白日依山尽,那之后这些输入法越来越厉害啊,你不打ys,你只要前面是上句诗词,你打白日他就自己出,依山尽了,你连输这些字儿。
不用输了对吧?其实你看,这就是慢慢变成一个猜字的游戏。
这个一般的输入法都有啊。后来有一个输入法给了一个更厉害的猜测,游戏就是这个搜狗输入法,不是有这个AI联想输入吗?
他就有了这个东西啊。
比如说我在微信上跟人聊天,我说啊诶,今天晚上你想干嘛呀?
这个搜狗AI输入法就自己出,要不要一起看电影?这是第2个第2条,要不要一起吃饭,他就在帮你说下一句话了,你看这些呢,也是联想输入猜字游戏对吧?包括还有很多。
模糊输入的部分啊,我们说,呃,就是说什么啊?
然后打的可能打错字打成提他就会出到底,他能猜出说什么啊?后面的滴滴其实是到底到AI联想输入这一步晚上干什么?
要不要看看电影要不要吃饭这一步呢?就不是语料库了,不是因为他存了古诗里面搜到了古诗,而是这部分呢,已经有这个神经网络的部分再加入了对吧?所以说当然这一步和gpt。
还很不一样,但是某个方面呢,已经一样了,是什么呢?
我管这种程序啊,叫接下茬程序白日依山尽,晚上你想干嘛?
要不要去看电影?
其实呢,就是接下茬儿一样,实际上最后实现的和这些输入法联想输入是一样的,它就是一个超级接下茬机器,我们给大家说一句什么,他就接这一句的下茬儿。
实际上他做到的就是这个。他在预测你后面要说的是什么?
只是什么呢?
只是啊,它是根据了非常大数据,人类以往的很大很大的语料库,在预测接下茬接的是什么?
因为在人类过去的语料库中已经出现过无数次。我今天胃有点疼,而且昨天是去游泳了,现在我的。我的病是什么呀?有很多不是说跟他exactly一样,他像Google一样搜这句话不是,而是很多和这句话高度类似。
从昨天去游泳,昨天穿少了,昨天变天了,我今天胃疼,今天上胃疼下胃疼等等等等,他从所有这些海量的各种各样的语料库里面来看。
过去,当类似的语言出现的时候,下面的回应是什么样?
下面的内容是什么样来接这个下茬?
所以说这就是一个接下茬的机器。
而且完全是根据上面的语词往下接下茬的机器。所以说这个程序啊,不包含任何的思考推理,呃,11等等语法等等等等一概没有,就是一个基于transformer这种算法的接下茬儿机器。
好,上次评论区啊,有一个同学啊,给了一个非常精确的表述,我们就用这个表述来。
什么是接下茬机器呢?
就是我们转成语言学的表述啊,就是这是一个纯粹的基于能指的。
自然语言处理程序好,我们来说说简单说说什么是能治啊?
呃,在人类对于语言概念的理解中呢所需而把它分成能指所指一直等等等等的,我们就简单的来说能指和意志吧,能指就是这个语词符号。
AppleAppLe有5个单,有5个字母构成这个单词这个这种这个符号就是能指。
什么是他的意志对象呢?
指那种苹果或者在某些语境里面呢?
他指那家公司,这个呢,是他的意志对象。
当我们人使用语言的时候我们既说能指也说一直。
我们说Let'sGogetSomeapples对吧?如果你跟你说话的对象知道呢?
你们现在这个情况是去买水果,他就知道这个apples的能指对象的意志对象是水果苹果。
当我们已经约好了明天我们要去苹果店买手机买电脑,我们说Let'sGogetSomeapples,你就知道你就知道他的能只是apples,他的意志对象指的能只是那几电子消费品。
所以对人来讲啊,我们有能指我们在脑子里面也能够意识到他的意志对象。
好chatgpt完全没有这个当checkedGP你问他一句话,呃,isapplesgood这句话的时候,他不会去这个程序,一点儿都没有想过apples指的是那个水果还是指的是那个。
电子消费品,它就是在过去海量的数据库中,把每一个词语函数化来算。
接下茬该接什么东西?
所以说这就叫纯粹的能指关系。
所以Checkgpt就是它46T的语料库。这些语料库是什么呢?这语料库没有任何标注,它背后的意思是什么?
没有一条语料在标注这个语料背后的意志是什么?
这46个T就是46个T,纯粹的能指搭配46个T,庞大的能指搭配。所以hppt摸索到的就是人类能指的搭配规律。
人类能只当然是有搭配规律的,对吧?
我们的话,不管是从语法上有其搭配的规律,场景运用上也有其搭配的规律。
所以说这个搭配规律从我们每个人日常生活中其实感受不太到,但是到46个T的数据之上,其实计算机机器啊就能够感受的比较明显。
为什么以这个方式可以来做一个人工自然语言的程序呢?其实这背后也是有一个假设。
就是自然语言,就是能够被能指所框定的摸索能指的搭配关系和搭配规律就能够master自然语言。
只要数量够大对吧?好,我们就来看啊,我们先来看人是怎么接下茬儿的,我们从人接下茬儿上先看出能指确实本身有其规律。再来看人其实很多时候是怎么超出能指的规律来接下茬的。
好,我们人也经常接下茬,对吧?不仅机器接下茬,人也接下茬,这个接下茬呢?很多时候呢,也是因为记忆的断裂的夏茶,比如有人就可以说,哎,白日哎,那古诗什么来着山什么,你说白日依山尽啊,我们可以接这种下船,当我们接这种下船的时候呢,我们跟最原始的输入法是一样的,就是朋友没记住,我们记住了,所以出白日出山古诗,我们白日依山尽就接下来了,对吧?
那么很多时候呢,我们绝大多数时候在生活中接的是这种下茬。我举个例子啊,比如说你的朋友说,你跟朋友一起看个电影,你朋友说,哎呀,今天这个电影啊,看完了,我有种说不出来的感觉,就是电影里面的元素吧,我觉得哎呀,找不出那个词儿,然后你接拼贴感,你朋友说对对对对对对,就是拼贴感,你看我们经常接的呢,是这种下茬儿,那这种夏茶呢,首先啊,这种夏茶是有能指上的规范的。
比如说你朋友说,哎呀,今天这个电影啊,我看完有种说不出来,感觉这个电影元素吧,我觉得你说你接一个下茬大树感对吧?这就不makeSense,什么叫不makeSense?也就是说这句话根本不构成意义。你看这一点上是人工智能可以通过46T的能指语料库学到对吧?
它能够学到,当电影感觉这些能只出现的时候,他根本不管电影是啥,你就把电影当A,感觉当B出现的时候。
从来没有出现过大数感,从来没有出现这个C大数感,但出现过很多次的拼贴拼贴感等等等等。
因此AB的就建立了某种逻辑上的关系。
所以说72gpt在跟你对话的时候,你说爹这部电影什么感觉,他绝对不会出大数感这样的词,因为这个能指符号过去没有出现过。
或者很多其他形容其他事物的形容词没有跟着电影感觉这些能指符号出现过,所以他也不会回这一词。所以说我们人接下茬当然也符合一定的能指的规律。
就是很多,能指就是就是语言游戏吗?
电影的感觉描述这个语言,游戏之中就不会发明出什么大数感,除非有什么特殊的语境啊。
这个一会儿会说,但类似于拼贴感大师感意识流等等等等的是你,你根本不管它背后的意思是啥。甚至很多今天写影评的时候我也不认为他们真的知道背后的意思是啥,但你看,这就像一个game一样,这个game当我们描述电影感觉。
就是有一套,能只可以去描述它啊,这个我们也有,所以说AI的就能够学到这一层的东西啊。
但是呢,AI没学到一个啥呢?AI没学到的就是当我说拼贴感,他说对对对,我们背后呢,其实有共同的意志对象,有一种共同的感受,对吧?拼贴感呢,就描述出了这个感受,感受这个东西,AI当然不会有,但我一会儿要说啊,这个感受可能不是AI的根本问题。
这一会儿涉及到我们的第2个假设,我们先放在放在一块,再去说,至少从这个表述之上,我们能理解到我们的自然语言人使用的一样,有能指的规范和框架,就是这种人指的能指的规范和框架。
就是说电影什么形容感觉词都不是我们发明的,都是从前面的人使用的,能值表达上继承而来的。这种继承性反应在预料之中,能够被这个机器程序学走。
好,但是呢,我们再举一个例子,人确实能产生一些别的表达的,比如说我们看完一个电影,我们说,哎呀,今天这个电影给我的感觉,整个电影给我的感觉特别像这个电影里面的一个演员,你说王一博,你们俩哈哈哈哈哈哈,这是有可能的对吧?
而且这就是我为了今天这个例子构筑出来的,一个我过去没有看谁说过这个电影的感觉,特别像这电影里的一个演员这个说法。
但我们每个人一听呢,你不会觉得这个表述没有道理像大树杆一样是完全不makeSense的。
这个电影给人的感觉特别像这电影里的一个演员,这话绝对makeSense。
啊,而且呢,这个话也是有背后的感觉所支撑。正是这种感觉促使我们发明了新的语言游戏。
那么这种东西呢?这种能只搭配关系啊,就不会出现在过去的经验之中,但是Somehow依然能够被AI程序捕捉到一些捕捉到什么呢?
AI虽然过去没有把电影感觉里面的一个演员构筑出来,但是他完全可以理解。
这是什么意思?
当他回答的时候,他能够明白,当出现这几个要素的时候我们应该可能需要在巨石中需要回答演员。当然,AI程序根本不管句式不惧是只是在这种问题之中,在过去有很多很多电影中的演员等等等等的复杂的函数关系的编制之下,他会给你回答出来的。
但这个回答东西呢,很有可能被我们看,就是那种胡说的时候,就是他没有真的那种感受在其中,所以这个回答是湖州的。
但这个湖州呢,其实没有什么关系,尤其这种问题的湖州,有时候呢,你要为它赋予道理也是蛮容易的。
所以你看好,我们就来讲,我们刚才有一个假设,一假设一是什么呢?假设一就是让Checkgpt可以Work的假设什么呢?
就是不需要一直对象足够多的能指的语料库,把握这些能纸拼贴排序顺序词与词之间关系的规律,足够master人类的语言了。
啊,这是一个假设啊,但我们刚才就发现呢,这个假设没道理,为什么呢?因为人在使用自然语言啊,背后有感觉,有语境。
尤指物等等等等,这些呢,是机器不可能获得的。
比如说有感觉,刚刚我们已经讲了对吧?我们很多时候描述那个一直对象背后就是有感觉,比如什么拼贴感,有语境也很正常。比如说我们之前经常举个例子啊,我们说,哎哟,狼来了,这话啥意思呢?
这话在野生动物园里面是举起照相机会拍的意思,这话在野营的时候呢,是赶紧跑的意思啊,这就是语境对他的影响。也有植物,比如我们经常在生活中说这个。
那个当我们说我的时候,并不是说实体我,而是一个指物对象,所以我们也讲过这种指物对象你要活在那里面才看得到。所以我们就要说啊,光去了解能指的排列规律,你根本不足以去了解背后的感觉语境指物对象等等的。所以说呢,这个方式绝对不可能真正让自然语言运转起来。好,
你看啊,我们再有下一个假设。
下一个假设。
自然语言当然有超出能指构成的部分,比如说感觉语境植物等等等等的。但是。
只要能指的这个数据库足够大,实际上感觉语境植物最后也会反映在能指上,绝大部分都能够被能只体现。
就是机器,绝对是不可能。
尤其现在不可能有什么感觉,不可能真正了解语境,不可能了解指物对象的,但是所有这些东西Somehow都会反映在能指上。
都会反映在能直线向上。所以说它通过一种拐弯的方式,还是被机器学会了,他不叫学会啊,还是被机器同呃这么说最精确了,还是配机器编织进能指规律中了。
机器用能指规律这个事儿编织了我们的感觉,编织了我们的语境,编织了我们的植物,这当然是有可能的,对吧?你把一个故事转述给第3人的时候,第3人不在场,你不就是用一些能指符号把当时的情况语境等等告诉第3人吗?
啊,这样的数量足够大,那机器是不是某种程度上甚至穷举了我们人类所能够遭遇的所有语境感觉植物等等等等的。
都被他编织进了这个能指的规律之中呢。
好,这是第2个假设了。
第2个假设就是一个比较终极的假设了,而且这个假设呢,在很多条件之上是合理的,这也是为什么我们在跟对话的时候,好多时候都感觉他对于上下文语境的把握啊,尤其是你交契GDP,做个事儿,他能给你做出来,比如你告诉他这个小红书的文案大概是这样的,你按这个方法给我写一个文案,他能写出来,你就感觉这不就是把握了语境嘛,对吧?
这怎么没把握语境呢?等等等等的。
而且由于它表述的对象,比如说让他推荐的一个电影啊衣服啊,在他的语料库之中都被推荐过不知道多少次了,他早就把握了这些能指对象所衍生出来的感觉词汇是哪些,等等等等,所以他描述的也能够某种程度上还原跟我们使用的感觉词汇背差不多嘛,这不就是能指的编织能够编织语境编织感觉吗?等等等等。
所以就是之所以能用呢,就是因为这个第2个更深的假设。
这个更深假设呢,就是人使用自然语言啊。
当然有超出能指的成分,有抑制有感觉,有语境有植物等等等等的。但是这些在数量极大的能知语料之上,其实都能够被编织进能治的规律之中。
好。
我们就从这里开始啊我们现在就明白了机器跟人有什么不同,这个不同呢?
现在到这一步还是蛮明显的,而且我们知道了一个逻辑就是为什么在完全不同,这个机器就值处理能治的情况之下,他能够有这么好的表现,就是因为他背后的一个假设就是能治规律的编制,是不是能把这些都编织进去,我们就要来看这个问题。
好,我们就深入到能指用法问题之上来看我们的能指用法,当然是机器背后的能指用法来看它到底能够还原多少,不能还原什么这样一个很有意思的问题。
好,我们现在已经明白一个东西了qaqgpt以及gptThree是一个从语言学角度来讲纯粹的一个基于能值的程序,他不管语法,不管意义,
不管知识,这些都没有。
它就是一个硬拆解,拿46T的能指库应拆解人类使用语言,仅从现象和表象之上应拆解它的用法的一个程序。
当然啊,我们呢,背后呢,有意义啊,有感觉啊,甚至有游玩的乐趣等等等等的。
机器这些都不管,我们就来看它能不能反映出边致敬这些东西啊。
我们先说机器的能指对象是什么?
你看啊,上一期呢,我提到一个概念,说啊,这个机器他不管意义的,它就像在用不同的词汇下围棋一样,那我们就是说他就是用所有的词汇在玩儿一个接下茬的游戏等等等等。
但其实这个说的还不准确。
呃,gptThree它的基本单元并不是词汇,而是token。
什么是token呢?呃,也很简单,它其实是一些词汇的拆解。
比如说啊,如果你在一个句子里面用到developers这个词就是开发者,他会把它变成develop和ERS这2个单元。
比如说你用的language的这个词,它会把它分成language和SheD这个词缀。
还有一些让我不太理解的,比如说gpt这个词对吧?它把它分成绩和PT。
啊,比如说subWord,它又把它分成Saab和Word,这里面很多拆分,其实你能够看得出来他是为什么对吧?
他就是把词和一些词缀拆开啊,这当然是一个很有道理的处理方式,我们一会儿会讲啊。
呃,但这些有的差旅,有的又不差,比如说动名词,呃INGPain等等的,不会差的配和ING就动名词没有拆,我其实没有完全理解为什么,而且有一些我也没有完全理解,比如说Communicate会拆成commune和ICAT我觉得这挺正常啊,但Communication就没有拆成commune和这个ICA或者和TION三部分啊,所以说到底它这个token怎么拆,怎么不拆?
这我其实还不完全知道,但Anyway啊,就是呢,chatPPT并不储存所有的单词,有些单词啊,它会把它拆成不同的token来处理,这就是token呢,就是这么一个东西,比如有些token啊,像很多词语的复数形式,es,它就会把那个拆出来,当做这个词缀的末尾,当做一个token来处理。
当然啊,为什么要使用token,其实也很容易理解,因为使用token。
这个原因呢?很多词汇呢,才更能够标准化,比如说token这个词也有它的这个动词形式,token的Eyes,对吧?他们就会把这些人token和IZ1这样的方法,所以说这个词就是这就是能指的标准化,因为很多因,尤其是英语这样的语言嘛,他就是靠一些,
呃,呃,一些词缀和其他词缀的拼接构成意思的,所以说能值本身的标准的话呢,是靠token这一步来完成的,而且啊,有这些有意义的。
词缀之后呢,可能,呃,构建背后能指与能就是能只去编织意义可能会更容易点,对吧?
就是你不会把token和tokennice当作2个不同的词汇对待,他就是应该被当做一个词汇对待,所以token就是token的Eyes就是token加IZ1这2个不同的不同的东西啊,其实也符合英语的语言规律。所以Anyway啊,对于chatgpt来讲呢,当我们给他一段文本,他首先做的呢,就是将这段文本tokenize。
Token化token化之后呢?
它一般呢会比一些词汇多一点点,比如说啊,你这个文本呢,可能有40个词,它tokenize之后呢,可能有50个词儿不会多太多,其实真正被tokenize的词汇也并没有那么多,大多数词汇还是一台原本的形式呈现的好,这就是hppt。拿到这些能指之后,他做的第一个,首先呢,把它变成1些,更加标准化的能指就是tokenize这一步。
第二步,他对于这个能指做的是什么呢?
第一步挺好理解啊,就是把它变成标准化的。
能指第二步呢,就稍微难理解一点了。第二步,涉及到程序会做一个AttentionAttention,这个很好理解。
比如说啊,我们随便举一个单词就是TheManiseatingtheApple。
我们有这个词啊,这个词呢,你把它token呢,假设这里面的每一个词都没有它的进一步token就是AManiseatinganApple。就这些词儿,如果你把这些词儿全部灌给这个程序呢?
这难道程序是接受的一句一句的句子嘛,对吧?
如果程序接受一句一句的句子,那么这个is在里面又有多重要呢?
所以说啊,这个gpt有一个非常好的机制来处理啊。他既然已经把词语tokenize了,他有一个很好的方式来处理这句话,他有个Attention的问题,就是这个程序会有接下来有一部他去找出啊。这句话里面哪个词儿最关键?
以及更重要的词语的组合。
哪一些词更关键?
它到底是什么意思就取决于这些词的组合关系。
对我们也明白对吧?比如一句话里面的the有什么意思thisthat等等这些词对于构成一个句子的意思其实没有那么重要。
但是呢,请注意啊,这个地方重不重要呢?
不是我们人叫他的。
不是我们人在教the这个词啊,我们给他一个规则,the这个词你就略去,你去看别的不是到底哪个词儿重要,他应该注意哪个词儿也是机器自己完全按照能指的规律去。
运算的。所以说当你输一句话给机器的时候,机器会对里面的每一个token进行一个Attention的计算。
这一步呢,相对比较复杂一点啊,但是呢,呃,我我可以尽量把它描述得深入浅出啊。
我们可以想象一个X轴和Y轴对吧?
那X轴和Y轴呢,就有这个X值和Y值,如果X值和Y值都特别大呢?
他不就在这个这个坐标轴的右上角吗?比如说X轴和Y轴都特小呢,他不就在这个坐标轴的左下角吗?
那如果我们简单地说啊,这个计算程序有一个方法来判断分布在右上角的词更重要,而分布在左下角的词更不重要。
他呢,就能够去看哪些词更应该被注意哪些词不应该被注意,对吧?
好,那except这个gpt呢,不是一个二维坐标系,而是一个三维坐标系,它一共有3个东西来决定一个词语是不是重要。
那是不是重要呢?
是被这3个东西决定的。第一个东西呢,就是被查的这个词本身,比如说AMan,第一个是A这个词。
呃,这个词呢,我们也能想象啊,它出现在各种各样的话里边对这个话的意义的构成呢,其实我们都都有经验,应该帮助,不是特大。所以说当你在一个计算机程序之中啊,这个计算机程序仅仅分析这个所有能指的排列规律,应该也能感觉得到这个词汇在过去并不那么决定上文和下文之间上一个词和下一个词之间的前后关系。
对于这个前后关系,他决定的真的是非常非常少。
所以说它的Q值呢就会比较小。
第2个cage呢?
K值啊,就是用这个词去程这句话里面其他词得出的一个重要性,这个简单来说就是怎么样去简化理解呢,你可以这样简化理解啊,比如说有些词,很明显这2个词之间关系比较大很多啊,比如说IT和Apple对吧?那Eat和book的关系就要小一点,那book和Red的关系就比较大。
这是很明显的,对吧?所以说呢,词与词之间呢,在能只只上也有远近关系,你都可以想象,我们只要所有的英文文本找出来,Eat和Apple出现在一句话里面的概率会远远大于IT和book出现在一句话的概率,那book和read出现在一句话的概率会远远大于book和Eat出现在语句话里的概率。
所以说,仅仅通过能值分析,其实你该程序也能得出啊。出现book这个词的时候。
在它的附近啊,出现Red这个词的概率就比出现IT这个词的概率要大得多。
所以K值呢?
大概是一个一个层级关系。
微指呢,是QK值的一个总和。
3个值呢?
forAnyway,我就不说的太细节了,这3个值经过一个softmax的换算关系,就可以得到一个Attention的值。
这个Attention的值呢?对于这句话里的每一个词都要来衡量,然后接下来一步,不是说Attention值低的词就不考虑。
这一步是能描述的。接下来一步就是进黑箱的了,就是当程序啊,对这个Attention进入标注之后,就是这个词,它本身的重要性就输入到这个浩如烟海的神经网络之中。进这个神经网络之中之后,到底是怎么样输出那句话的,我们就不得而知了。
Anyway,反正训练过程中啊,就是拿一个文本,看它能不能准确地预测出下一个词,比如说他们经常用这个东西robot。
Mustobey。所以说你就比如说你的目标就是要输出robotmaster背,那你就出robotmust干机器能不能根据这样的运算算出AB还是DC对吧?等等这样的词汇,它就是一个接下茬看着下茬接的对不对?
这个下茬接的对不对呢?
仅仅靠对于能指的分析分析呢,就是把能指对象tokenize变成更小的token,以及根据过去这46T的语料。
其实啊,就是在算词根词的我甚至都可以说词根词的远近关系。
其实就是词跟词的远近分布关系。
你就可以把一段文本啊把它当成词语词的远近分布和顺序这2个事情上次我们讲过对吧?所以说人类的语言的能指呢?
如果要摸索什么规律呢?就是词根词的构成有一个远近关系,有一个顺序关系。
这个chatgptgptThree就是摸透了这个玩意儿,因此能够预测一句话的下一个词在下个词儿在下个词儿是什么。
所以你看PPT输出的时候,不也是一个词一个词蹦的嘛。
蹦得快的时候呢,蹦一句话,蹦得慢呢,就是一个词一个词蹦,所以它不像人写文章啊,一句一句想的qaqgpt就是个接下茬程序就是一个词一个词地接,根据现在已有文本下个词儿是什么在下个词儿。
那么在下一次是什么?就这么一个字儿一个字儿一个字儿一个字儿,一个能指11个token,一个token,一个能指,一个能指按顺序往下蹦这么一个关系。
当然啊,这个Attention机制里面,因为有顺序关系啊,还有这个Mask机制我就不多说了,包括呢,呃,如果你给他一长段文本,他也不会把所有词算进去,它有一个multiheadAttention,就是说它会把它断句,按句子分开去算,每一句里面的tension,你知道这个也很重要,对吧?比如说呃,一段话一共有这个200个。
此那如果每个词都要存200次,获得这个K值的话,那这个运算量太大了对吧?
那如果这字儿太多,再再进去再算,这个就是天亮了,所以说它会把它分成,比如说11句话,200个词儿一共有5句,每句40个词儿,
所以每个词的K值乘40加这个运算量小得多啊,这就是他获得这个Attention的一个方式。
这个Attention呢,完全也是不需要任何人工的干预去做的,就是我们如果把它总结出来啊。
就是过去从46T的语料库这个能智库里面找到能指与能指的空间分布关系和接近性。从中呢获得了一个衡量新出的这句话里面前后这个语料的关系啊,来接的这个下茬。
好,这个夏茶啊,刚才我们已经讲了,就是像bookauthorEatApple这样的词,我们也知道他这个Attention最后能不能啊,完全还原那个语境,就是他的假设呢,就是所有这些能指关系啊,对于能治规律的把握,已经涵盖了人类所有的语境,那我呢,又像上次去给他想一些办法,hack他对语境的能力一样,我们来看这个hack正不正确,我呢做了一些这些的。
尝试啊,我的所有尝试都是在探索机器对于语境把握的边缘位置,就是机器在什么情况之下就把握不了这个语境了。
再回头来想,这是为什么?
好,我问了机器这么一个问题啊,都不是问题了。我对机器做了一个表述,我说howcanIReallydigesttheidea就是说我真的是完全不知道该怎么消化我,我是直译的啊,消化这个意义了,我想把那个作者的脑子吃了,然后这个机器呢,哎,读懂了这句话的语义,我在比喻性的表达这个事儿,所以他在说呢。
你吃脑子有啥用啊?所以你该怎么做呢?你应该完整的阅读,去询问问题,分析语句里面的条件,能够去反复训练自己总结的能力等等等等的可能呢,才能够真正理解意思。
所以你看这句话,他是说的对的啊。那么呢,你看我们也明白了,机器是在干嘛?
机器是在计算词与词的关系对吧?那我在想我能不能换一个词啊?
让这句话变得更像是吃,让他理解成吃呢。好,所以我换了第二句。
我就把那个digest换成了swallow,就是吞咽这个词,而没有用digest这个词,这个词就更接近吃。我说,然后这句话呢,哎,他还是不错,他还是理解成了我其实是要,呃,就是要去读这个话的意思,所以他就说呢,最好的这个理解和内化这些观念的方法,就是说要跟这个文本的对象啊。
呃,就是要去更多的去接触,比如说你要去读啊,要跟人讨论啊,等等等等。
好,我我我感觉啊,会把他逼到边缘了。
我现在已经意识到了应该是idea和author的这个关系,让他还是锁定在读书的语境之中。
所以说我把idea这样一个偏理性化的东西换成了一个感性词汇。
我下一句话得说howcanIReallyswallowtheComplicatedsensationsIAlmostwanttoEatbrainoftheauthor。我把观念换成了情绪。
就是如果直译过来,就是我已经无法再吞咽这个情绪了。我甚至想把这个作者的脑子吃了。
说到这句话,机器已经不认为我是在读书了。
这个机器觉得我有这个精神的问题,他就说啊,我非常理解人有时候会被这种复杂的情绪所困扰。
我真的建议你啊,要去,呃,跟其他人多谈谈啊,保护好自己的感觉,找到其他人的帮助,等等等等的好。
就说到这里我们就能明白啊,这里是机器对于这个语境。
理解的边界他已经没有get到。
我实际上是在说读书的比喻了。
我们回来来看啊人怎么理解这几句话包括从howcanReallydigestideaIAlmostwanttoEatbringofftheauthor但howcantheyReallyswallowtheComplicatedsensationIAlmostwanttoEat其实你把这3句话给人讲,虽然swallowtheComplicatedsensation这个说法挺奇怪的啊,但我觉得人是一定会知道啊,这个是比喻性的。
首先啊,AlmostOnetwo是英语里面非常典型的夸张修辞的,起首是。
IAlmostwantto。后面接的东西多半不是真的。
后面接的东西多半是荒唐的,它就是一种荒唐夸张表持修辞的起手式。
所以当人看到Almostwantto我们其实在理解词组对吧?就是我们理解语言游戏的单元很大程度上是有词组,所以看到这个词组啊,我们就明白这背后。
最后这部分是比喻性的。第二,不管是idea还是sensation,跟author一笔我们就明白这肯定说的是理解问题。
这里的idea是指的author的idea,这里的sensation一样指的是author在书里承载着sensation。
对于我们来讲啊,我们不会因为他用了sensation,我们就认为啊,这是他自己的sensation。
既然后面有这句话,那一定是author的sensation。
所以我们呢有更好的透过这些词组等等的方式啊把握住这些话意识的能力。
好,我们反过来想啊,机器为什么不知道?原因很简单,首先啊,机器没有段落性地去把握Almostwantto语法的能力。我们不是说了吗?机器就是把每一个词汇tokenize去寻找这个能指和其他能指的对应关系。
首先,它既不会把这3个token拼到一起,拼成AlmostOnetwo当做一个单独结构去分析这个与其他与词的关系。
为什么不这么做呢?
你也可以想,如果要这么做,这个计算量就海了去了,对吧?
第二,机器呢,也没有任何意志对象啊,就是他Almostwantto都是3个单独的词,它也不会有任何背后的异质性的含义。这个呢,导致。
这个程序啊,很多时候去用能指的编织关系来反过来理解意义及编织上的是有问题的。
因为呢,它并不能编织短语,并不能呢,编织句式等等等等。
第二机器呢,是每个token来处理的,它计算的是每一个token的函数变量值。
比如说digest变swallow这句话呢,可能已经慢慢的滑向要吃东西了,idea变成sensation,因为idea这个词所带有的偏向跟Red。
Understanding相关,这个意义可能就更淡了。
变成sensation之后呢?
他可能跟他关系更近的词汇啊,就变成什么Suicideimpulseharm等等的这些东西。
所以说第3句话idea变sensation,机器就完全变语境提交了一个更心理学的一个回答,而不是一个阅读和理解的回答。
啊,你就会发现为什么对机器来讲,改一个词他的想法就要变。原因就是因为呢,token是每个token的函数向量值都会跟这句话的其他词汇一起来处理的。
所以你可以想象对于机器来讲啊,有一句话的这个就比如说这句话,它的阅读性越来越淡,疯狂性越来越强,就实际上对人来讲啊,这句话的比喻义没有变,但对机器来讲,一直是他的阅读性越来越淡,疯狂性越来越强。
当然,他绝对不会去分辨阅读和疯狂。
我更精确的描述是这句话的所有词汇的函数值和詹阅读的函数值的关系越来越弱。和詹疯狂心理学的那些函数值的关系越来越强的这么一个过程。这个呢,就是机器理解语境的一个边缘。
所以说啊,机器绝对不会语法性的说话机器不知道什么是正话,什么是反话。机器理解一句话,全看各个词汇的函数分布,函数分布会完全的改变他对一句话的理解。
好,我给大家再举第2个例子,这个例子就更有意思了。
这个这2个句子呢,我都只改了一个词,就是我今天做了很多测试啊,就是我通过改这一个词儿,就反过来彻底影响这句话各个token的函数变量,进而来影响机器对它的整体理解。第二句话,我用的是依据明确的反话,我这么说的,我说哦,IfeelI'minAtwogreatMOODTodaythatIcangiveUpEverythingthatIpursuefortheentireofMyLife。
NothingReallymatterstome就是这句话呢。
你要人听明显是反话,肯定是要自杀,对吧?所以上面这句话说完呢,非GoodbyetoEverything等等呢?这些机器没有听出来机器说啊,当然啊,觉得开心呢,是挺好的。
但是呢,我觉得啊,还是要维持一个好的平衡,就是感到开心啊,和这个负责任生活之间的平衡,就是机器以为我这说这话是开心的。
还在劝我要这个更负责任有意义的生活好,我改了一个字。
你现在可以猜一下改哪个字他就会觉得你要自杀。
其实这个字是Everything,我把Everything改成theWorld。
所以第二句话是,当把toEverything改成totheWorld之后,程序马上说,'
msorrytohearthatyouFeelingthatway就就就劝你啊。
就是一定要感觉到这些想法是很短暂的,就是我们是可以去经历这个好想法坏想法。在有坏想法的时候,你千万不要giveUp。
所以你看,你只要改一个词,因为啊,我就猜在过去的这个能指的。
组合中啊我们经常用到什么giveUpSayGoodbyetotheWorld等等等等的来表达片那个的意思,但SayGoodbyetoEverythingEverything和这个theWorld就比起构成这个能指的对应关系呢,可能就要小一点,所以你改一个字儿,这个机器对你的理解就完全不一样。
虽然拿人来读啊,这两句话都是反话,都是这人不行了,对吧?
所以你看,我们慢慢慢慢就更理解这个机器到底怎么构成语境啊。
这个跟人有什么样的关系了?好,我们就来总结一下啊。关于语境这个语境,这一点呢,非常重要。
这个context,呃,人也是从能之中,尤其如果你跟人语言上去对话,你也是在能指上去找语境的,他也是在能指上去找语境,你们的区别是啥呢?区别呢?
就是人学语言规则。你的语境构成的规则是多样的。
短语语法表达式表达式本身反话的属性,尤其是今天在网上很多阴阳怪气,你为啥知道是阴阳怪气,你都能说这话,要在这个网站就绝对是阴阳怪气,这话要在另一个网站就是一句正话,这种东西我们能是知道的,但这个对于机器来讲是不知道的,所以我们有很多规则来学习语境构成语言游戏的规则。
我们的语言游戏规则就算再能治的层面之上也是多样的。但是机器对于语境的理解和构成是单一的,就是token间的函数关系。
说到底就是token间的分布,就是这些能只在语句中的分布,完完全全就是他了解语境的单一原因。
所以这才会出现改一个词儿对人其实没有影响,机器完全会理解不同的意思。
因为什么呢?因为对人啊,只改这一个词儿,根本不影响其他规则的作用。
但对于机器改一个词儿,影响了全剧每一个token的函数表达结果对吧?所以说就会导致机器有时候会出现很难预料。我们问一个东西,答非所问就是这样的,因为你问里面的词的组合啊,对他来讲,这些词儿函数关系乘起来是别的东西。
啊,就是是别的一种分布,它没有意义啊。他不知道什么东西,就一种别的分布。
因为你有很多方式,甚至人还有,比如你是当面环境表情都有。
那今天很多有网上一个emoji等等的方式你都知道是吧?
在阴阳怪气对吧?
我们有很多规则,上下文环境能够构成我们对于这个语境的了解,尤其好多时候是短语,好多时候这种阴阳怪气是以词组的形式构成的,只要说出这样的话就触发,绝对是阴阳怪气,但对于机器来讲,它没有词组概念,没有这个语法概念,没有反话概念,没有其他的东西,就是一个token一个token的函数分布,所以说机器这个方式能不能反向用?
能指的关系拆解人的语义和语境可以,但是呢,很脆弱。
好,这是一阶的脆弱性。
我再把它变成2阶的脆弱性二阶的脆弱性是什么呢?
就是token长度和这个多文本理解的问题。
你看啊,刚才我举的这些例子呢,其实我那句话都不长,大概十多个英文单词,20多个英文单词就有,呃,就就最多了。
现在啊,这个hppt能够输入和输出的token的长度应该是4000多个好,应该是啊,如果如果不是的话,如果你知道,你可以纠正我,我觉得应该是4000多个,我,我搜了一下没有搜到确切的,我还拿这个问题问了,这个PPT他也没有给我确切的答案,那4000多个token的是什么呢?就是3000多个。
英文单词首先啊,这个token长度绝对是程序的一个命门。什么意思啊?
Token越多,你也能知道对这个内存的需要啊。
那是指数级增长的。因为虽然有这个multiheadAttention就是它。
虽然这是一句一句处理的,但是token一多。
这个不管是剧本身的多,还是要素互相相乘得出向量指标,在进入里面去分析,那分析里面也非常耗内存,所以你很难想象你直接给他输一步,这个莎士比亚让他去分析啊,不能他还是几千个几千个几千个几千个,这么来的那人不一样,那人处理语境好多时候是你你读一个toast夫斯基的小说,你阅读阅读你是前后贯通到一起,理解它本身的问题和语境的,所以这一点呢是不同的。
其次,对人来讲啊,如果我们是读token读,我们读Word,这个Word越多,我们错误理解情境的可能性其实就越小,对吧?
因为对我们来讲,我们画越多,句子越多,我们越明白他是要说啥。
对人来讲,这个话少,容易起误解。
这个话多了,你一般不会误解,但对于程序来讲啊,其实刚好相反。
程序呢?
token越多,理解错误情境的可能性其实越大。
你。
你想也知道是为什么,对吧?
因为token越多。
实际上啊,由于词儿的多样性和丰富性也越多,所以这个词儿跟词儿的函数关系其实会越复杂。
因为这样复杂的函数关系啊,实际上它的本身呢,就会呈现出一个更generalize的情况。我在这里也用了一首博尔赫斯的诗啊,因为我想找一个长点的文本。博尔赫斯这个诗呢,文本量也不是,特别特别大,查了一下对这个gptThree呢,是446个token构成的一首诗。
我就问他们很简单,我说这是说的是啥?
让他总结一下,完全没总结。对。
首先呢,这诗啊,其实很明显是关于语言的,就博尔赫斯的私事,关于语言的你也能理解,对吧?博尔赫斯的核心问题意思就是语言关系吗?
这个我们之前那博尔赫斯跟哲学的关系,那个节目我们讲过,那么这首诗里面呢,我选的也是一个很明显的诗,里面有很多的跟语言直接的表述,比如说WordsAnyWords,比如说Friendstochatwith,比如说thesoundsthatGOtomakeYourName。
GoodfieldstreetDogsIntothefewstreets就这首诗本身啊,就是跟语言相关的内容非常多。
但是啊,你想一个人写诗,这诗里面的词汇可就多了,什么Forgotten啊,sheltering啊giveaway啊等等等等的。
所以说有这些词的情况之下,对于GDP来讲啊,他就把他非常generalized,就是他说这首诗是干嘛呢?
这首歌诗啊,就是speakeristryingtoHoldontoSomethingthatisfleetingandintangible就是这个诗人啊,想抓住一些需要快速流逝的东西,说对不对吧,那那那当然也对了,但是这个就如果只是说这个的话,那我觉得世界上可能50%的是都是都是这个主题吧,就是一个generalize。
你就知道当这个词会议多啊它这个分布就会generalize话。
师是个很特别的东西,对吧?诗本身呢,是一个关键少数要素形成主题。但是呢,语词的多元性有很大的一种形式,你写过诗你就知道对吧?诗本身呢,当然需要语词的多元性要素形象的出现。
但是真正构成诗的主题的却是少数要素构成的。
对人来讲呢,我们就能分得清这个诗哪些词汇是装饰性的修辞性的加强的哪些呢?
是它的主题,但是AI程序呢,就是不加分辨地去把每一个token拿出来做分析,就很容易变得非常饭啊,就是token越多,词汇之间互相影响的成分就越多啊。
所以这就是他的另外一种问题,就是二阶的问题啊。
这个token尝试多文本理解,对于程序来讲其实是很麻烦的啊,他很难,他很难真正理解出来在这说啥。最后这理解一定会及饭即饭即饭无比这么一个问题。
所以你看啊,人的注意力机制啊,Attention和机器的Attention机制是完全不同的。
人的Attention不是全局抓取的,人总是能从他过去的经验中抓取出关键的要素。
比如说我就是从过去对博尔赫斯对于时间啊,对于语言的关注之上,很明显,这首诗是关于语词关于语言的来知道这个的,但机器的Attention就是全局能只互相对比的,对吧?我们人类的Attention,我再重复啊,我们从能治角度来讲,人类的Attention不是全局每一个能只互相对比的人类的Attention是很明显能够从短语语句几个词的重复性上。
找到它的关键性的,但机器的Attention就是每一个token全局能只互相对比的情况啊。所以说你看,这就是问题。问题是啥呢?
因为人说话不是把这个话的重要性像撒芝麻粒儿一样撒到这篇文章的每一个角落的。
很有可能我们很多时候写文章啊。第一句话,形成这个文章的主题。
下面的所有内容是围绕第一句话的演绎人来读,很容易读出这个感觉,但机器就不知道,机器就会把第一句话跟后面的每一第一句话里的每一个token和后面的话的每一个token当做是一个平均分布的东西来看待段落间的关系呢,对机器是被忽略的,他根本就没有设计成这样。
他也不能被设计成这样。
所以在这个基础上我们可以回答这个问题啊。我们说那个ICLincontextLearning这个事儿真的存在吗?
其实不存在。
为什么不存在呢?因为对机器而言啊,并没有真正的context区分。
对机器来讲,其实是一个平滑的函数分布。
这个函数分布呢,会决定不同的关键词汇的出现,而在关键词汇的出现之上,用我们上期讲的这个gpt很厉害的就是做Sense他的回答,
你会发现JP的回答总是主题画的一定是主题的画的话的回答,因为主题画的回答才makeSense。
所以说这种contest感啊,就是因为有函数分布不同的词汇分布,而再把这些词汇有有顺序函数,把它串成Sense的主题化的表达,而我们产生了一个错觉,我们感觉啊,这个机器油context感,他时而在安慰你,时而在劝你负责生活,好像有他自己的一个主意,其实没有主意,
他本身的只是这个不同的词汇的函数分布,再加上顺序词汇顺序词汇。
让它形成1种主题化的表达而已。
啊,这个主题化表达呢,就不是真正的context。
从现象上,其实都不是因为线上context就是连贯性非常重要嘛。
所以说机器本身会产生那种问题,就是他明明道歉,但是呢,死不悔改,还是在说自己的话,这就是他根本就其实没有构成一个完整的上下文的意义啊,他就是一个Sensemaking。
好,所以这个对这个gpt有什么影响呢?
我们刚才讲了就是这个Generaliti就是它的这个概括化或者泛化吧,它的能指对照呢,其实是泛泛的。
它的能指对照。由于本身是靠这个能之间的函数分布来构成的,一旦语词义大,也就一定会泛泛。
所以对能值本身的分布呢,也是泛泛的。
能指的输入是无重心的。泛泛的能指的输出也是无重心的泛泛的。
所以你会发现他经常写写片汤话片汤话为什么呢?
片儿汤话就是一个在函数上最安全的策略,对吧?你,你也能想象是把它最关键的词儿尽可能的出现在一句话里面已有顺序的方式表达出来,那大概呢,就是片儿汤话。
我,我多说一个,你看我这期呢也用了很多,呃,英文术语generated啊Attention等等,因为本来原来原来别人这个就是一个外国人基于英语开发内容的,里面有很多术语等等等等。我在网上看了好几个讲GP的博客,这个博客的评论区都有人骂说<装