你应该两百块,那一面有什么用?Our medical insurance is 320, which I paid last year.yourone year是now IWe don't report much there.Anyway, you go to that town, and then take a look around the town in the city.Inside the county, inside the county, into the city.His kind is equivalent to you going there.There are a lot of them, so that kind is similar to ours, and there are very few words when you come out with that certificate. Then the words in your city may be like 65 at that time.exactlyit suddenly occurs to me thatYou can only report it if you are hospitalized.You can also apply for that.It's the kind that can't be reported for paying fees anyway, for example, they have a cold and fever as a casual major.Then don't report it. You can have it.If you want something, you can't report it. Don't be the same as that.
Sam Altman,OpenAI CEO,ChatGPT之父说:“这是我见过的对ChatGPT原理最佳的解释。” 本书回答了ChatGPT 在做什么究竟在做什么,以及它为何能做到这些。
你应该两百块,那一面有什么用?Our medical insurance is 320, which I paid last year.yourone year是now IWe don't report much there.Anyway, you go to that town, and then take a look around the town in the city.Inside the county, inside the county, into the city.His kind is equivalent to you going there.There are a lot of them, so that kind is similar to ours, and there are very few words when you come out with that certificate. Then the words in your city may be like 65 at that time.exactlyit suddenly occurs to me thatYou can only report it if you are hospitalized.You can also apply for that.It's the kind that can't be reported for paying fees anyway, for example, they have a cold and fever as a casual major.Then don't report it. You can have it.If you want something, you can't report it. Don't be the same as that.
“它只是一次添加一个词” 我是个文科生,到现在对于编程之类的东西一窍不通。拿到这本《这就是ChatGTP》时,我心里还犯嘀咕是否能看明白。现在读完了,我不敢说我全部都读懂了,但是感谢这本书的巧妙比喻,ChatGTP的基本原理我已经基本清楚了。 对ChatGTP的横空出世,我个人的感情十分复杂。人工AI吆喝了这么多年,唯独这项发明的意义是跨时代的——在某种程度上,它可以替人类思考,并完成很多创造类的工作。我坚信,假以时日,如果能得到良好的利用,这项发明对人类社会的改变将是巨大的。 同时,我所在的媒体行业受这项技术冲击特别大。AI将来会不会取代我的饭碗,现在看的确有点悬——从目前ChatGTP生成的新闻来看,至少基础的“5W1H”要素完备,投喂之后产出的内容完全达到见报标准的。如果沉浸在现在的“短平快”里挣工分,将来就只有被淘汰这一条路可以走。 这本书有两点个人认为最有价值。第一自然是ChatGTP的“成长”过程。神奇的是,这本书只用了100页不到,就简洁明快地讲清了来龙去脉,关键词句就是第一个小标题“它只是一次添加一个词”。 人工智能的原理非常复杂,但再复杂的内容都需要基础和构成元件。从一个词,到多个词;从最简单的指令,到逐渐复杂、多样化的指令——这讲述的既是ChatGTP的发展历史,同样也是原理介绍。如果上来就讲编程的一二三,我很快就会陷入一片迷云之中。但这种友好的比喻,完全抛弃了枯燥的编程基础理论,让人很快就抓住设计理念中最核心的概念,进而对ChatGTP有了初步但比较全面的了解。 人脑的“进步”离不开学习。我们从出生以来,不断接触外界,正是从一个又一个词语(或者说概念)的添加,慢慢理解这复杂的世界。人工AI走的也是这条路——它们拥有更强大的计算能力,更好的记忆力,就有了很好的内容生产基础。加上他们的学习能力通过硬件提升和软件升级而不断增强,至少现在来看,在知识广度上超过普通人是完全可以理解的。 那么,如何“应对”ChatGTP对行业的入侵,或者说在ChatGTP未来大规模应用的情况下如何保住自己的饭碗,这是另外一个有价值的探讨。作者认为,ChatGTP从未“真正理解”过事物,而是只“知道如何产生有用的东西”。换言之,ChatGTP的“思考”是浅层次的,因此在涉及个性化的问题时,它往往很难给出精准的答案。这样,文学和艺术的殿堂对于它们来说还是太难了,涉及医疗、情感等复杂多变的领域,它们短期内也很难独自挑大梁。对于我们媒体从业人员来说,更具深度的思考能力是必须的,从纷杂的信息中准确识别正确或理性的内容也是保证饭碗的因素。当然,相较于编辑,记者的优势更是显而易见的——新华社很多年前就使用写稿机器人,但记者在一线的观察力和洞察力仍是无法取代的。“从知识执行转向知识战略”,说到底还是需要“管理型人才”,面对机器人的竞争,大家努力学习吧!
作者沃尔弗拉姆的多重身份:计算机科学家,数学家,物理学家,商人。他是“复杂系统”这一学科的开创者之一,一直致力于研究自然和社会现象的底层规律,他认为“万事皆计算,宇宙中的各种复杂现象,不论是人产生的还是自然中自发的,都可以用一些规则简单的计算和模拟”,他设计创建了Wolfram Alpha计算知识引擎和Wolfram语言正是这个方向上的努力,“伽利略曾宣称自然界是用数学的语言书写的,但沃尔夫拉姆认为自然界是用编程语言书写的”。 作者是ChatGPT的爱好者(并非创始人),本书的第一部分他着重介绍ChatGPT的工作原理,同时在第二部分带出“私货”(这也是该书差评区集中反映的一点😆):ChatGPT在精确性方面存在严重的局限性,以及Wolfram 之类的“计算语言”正好可以弥补精确性方面的不足。 下面整理一下我的习得: ✅ ChatGPT的工作原理?ChatGPT从根本上始终要做的是,针对它得到的任何文本产生“合理的延续”。这里所说的“合理”是指,“人们在看到诸如数十亿个网页上的内容后,可能期待别人会这样写”。GPT技术路线的一大核心理念,是用最简单的“自回归生成架构”来解决无监督学习问题,也就是利用无须人特意标注的原始数据,学习其中对世界的映射。在自回归模型中,每个单词或短语是基于它前面的内容生成的。具体来讲,自回归模型能根据前文而猜测下一个可能出现的单词(大概原理:把文本映射到多维空间的向量数而计算在向量空间里最近距离的词,也就是“意义空间”最近似的词句),每一步都依赖于之前生成的内容(时间序列),而且能理解上下文信息(Transformer模型的多头自注意力机制)。另外,这里提到的“无须人特意标注”应该指的是Base LLM,是基础模型,但目前ChatGPT使用的是Instruction Led LLM,主要是为了优化输出的答案更能满足提问者要求,所以Instruction Led LLM在训练过程中加入了人工对答案的反馈和标注。“自回归生成架构”的目标并不是为了生成内容,而是为了理解和学习,换句话说,通过学习海量互联网内容建立模型的通用理解能力。(补充阅读:《大模型应用开发极简入门:基于GPT-4和ChatGPT》) ✅ ChatGPT等AI对理解“复杂系统”的意义?“计算不可约性原理”是指复杂系统中无法通过简化来计算的部分(只能用“笨方法”一步步算)。复杂系统中存在无限的“计算可约区”,这也是人类历史上能不断出现科学创新,发明和发现的空间,比如用算法将复杂的问题简化到用更少的算力或数据就能解决。对于剩下的“计算不可约区间”,作者认为这是思考AI未来的核心,如何用AI来加速这部分问题的计算和解决。(补充阅读:《复杂》《涌现》) ✅ ChatGPT的“黑盒性”?对于函数y=f(x),给定x求y叫函数求解;给定y求x是反函数求解;而给定x,y,求函数公式的方法叫“插值”。人工智能的神经网络就好像是一个“泛化版黑盒版的插值”,相对而言,它不能准确求解函数公式(所以缺乏可解释性和透明度),但泛化能力却远强于“插值”(在输入训练集以外的数据时,也能表现良好)。 ✅ ChatGPT的训练方法?作者用“吸引子盆地中心”这个动态系统理论的概念比喻神经网络的训练过程。“吸引子盆地中心”描述了一个系统中状态演化的长期行为。在动态系统中,吸引子是一个状态集合,系统随时间演化最终会趋向于这个集合。而吸引子盆地是指所有最终会收敛到某个特定吸引子的初始状态集合,即所有这些状态的集合形成了一个“盆地”,围绕吸引子。在机器学习中,我们通常希望找到一组参数(例如神经网络的权重),这些参数能够使模型的预测误差(通常用损失函数表示)最小化。这个最小化的过程可以看作是寻找系统状态的一个“吸引子”。训练过程中,我们希望模型的参数更新能够收敛到一个解,即损失函数的最小值。这个最小值可以类比为动态系统中的吸引子,而参数更新的过程则类似于系统状态向吸引子的演化。在复杂的损失函数景观中,可能存在多个局部最小值和全局最小值。一个良好的训练过程应该能够引导模型参数逃离局部最小值,最终收敛到全局最小值,即最优点。(补充阅读:《深入浅出神经网络与深度学习》《Python神经网络编程》) ✅ ChatGPT的“类人性”?《新机器智能》的作者霍金斯认为,“我们感知到的东西是感觉和大脑的记忆所产生的预测的结合体”,简化这句话为公式:记忆+感觉➡️预测➡️感知/认知,所以人的感知/认知很大程度上取决于过去的记忆。霍金斯同时认为,“记忆是以一种能够抓住关系本质的形式来存储的,而不是根据当下细节来存储的”,这种记忆的获得并非如电脑数据复制,而是通过好似人工智能一样的(或比之远远复杂的方式)用“与自然界交互收集到的大数据”作为“训练数据”并用“进化论的优胜劣汰”作为“结果检验”大量“训练”完成,并以基因的形式固化后一代代传承(当然近几千年也出现了另外一种传承方式:知识和教育传承) ✅ ChatGPT的“科学性”?人工智能神经网络之所以不像科学,是因为它的“逻辑上的不可解释性”;之所以又像是科学,是因为它的“可实验可证明性”(训练和验证)。“过去的十年中,神经网络训练的艺术已经有了许多进展。是的,它基本上是一门艺术。有时,尤其是回顾过去时,人们在训练中至少可以看到一丝“科学解释”的影子了”。 ✅ ChatGPT的“能耗效率”?很显然,相对人脑,ChatGPT的能耗效率相当之低,事实上,就目前的计算机硬件而言,即使考虑到GPU,神经网络的大部分在训练期间的大部分时间里也是“空闲”的,一次只有一个部分被更新。从某种意义上说,这是因为当前的计算机往往具有独立于CPU(或GPU)的内存。但大脑中的情况可能不同—每个“记忆元素”(即神经元)也是一个潜在的活跃的计算元素。当前计算机计算单元和内存的分离是冯诺依曼架构的基本特征(这和人脑计算单元和存储“一体化”显著不同),这种架构在计算机得到广泛使用后变成了一种“范式”,但在神经网络训练的环节,需要大量数据在计算单元和内存之间频繁传输,因此这种分离可能会对效率产生显著影响,包括内存与GPU的数据传输瓶颈(如内存墙瓶颈),能耗增加,并行化挑战(可能就是作者提到的资源闲置的情况)等等。因此,计算单元和内存的逐渐融合可能是芯片设计的一个大趋势,还有就是不断优化算法,减少模型大小和计算量,从而降低对内存带宽的依赖。 ✅ “可学习性”和“计算不可约性”之间的关系?“可学习性和计算不可约性之间存在根本的矛盾。学习实际上涉及通过利用规律来压缩数据,但计算不可约性意味着最终对可能存在的规律有一个限制”,作者这种说法还是很有启示意义:学习的本质是“通过掌握规律来压缩数据”,也就是说学习避免了“被大量数据过载”(不论是人脑还是机器),而只需要掌握事物之间的“一般规律”就能够“大致的”认识世界。但“计算的不可约”部分的知识由于无法用规律准确描述,这也就实际限制了规律的作用。此时我们能做什么?利用人脑的“直觉”来判断(也许直觉本身就具备“计算不可约性”),或者在有大量数据和算力的前提下用训练人工智能神经网络来完成。 ✅ “能力”和“可训练性”之间的关系?能力和可训练性之间存在着一个终极权衡:你越想让一个系统“真正利用”其计算能力,它就越会表现出计算不可约性,从而越不容易被训练;而它在本质上越易于训练,就越不能进行复杂的计算。训练机器和训练人何等相似:有能力的不容易听话,很听话的没啥能力。😂 ✅ ChatGPT的数据依赖和创新局限?ChatGPT使用的源数据主要是互联网和书籍的数据,所以它的数据具有“广度”但是缺乏“深度”,比如某领域的高质量数据例如医疗,金融,电信等,再比如工业智能制造的数据。ChatGPT对训练数据的依赖也决定了它很难产出超出源数据的“创新能力”。 ✅ ChatGPT的“精确性问题”?神经网络虽然是模拟人脑,但其“分层设计”却是对人脑神经元机制的高度简化(人脑并不分层),代价就是在层际传递时造成的信息损失,这也就意味着最终输出结果很难非常精确。另外,ChatGPT训练所依赖的自然语言本来就是“生动而不够精确”(部分涵义需要读者展开联想“意会”补充)。而作者的Wolframe这种项目的想法就是利用某种“符号语言”更精确的描述世界,从而弥补人类语言精确性不足的问题。作者提倡ChatGPT这种大语言模型和Wolfram语言结合使用,互补互助,迭代提升,例如将ChatGPT生成的自然语言答案转化为更精确的符号计算语言,从而应用其计算知识的能力。 ✅ ChatGPT缺乏反思能力?“与典型的算法计算不同,ChatGPT内部没有“循环”或“重新计算数据”。这不可避免地限制了其计算能力—即使与当前的计算机相比也是如此,更谈不上与大脑相比了。”猜测这也是为什么ChatGPT虽然可以解答问题,但却无法像人一样提出好问题。同时,它也不能类似人一样通过“反思”进行自主优化不断自我提升。 最后,沃尔弗拉姆给出了一些个人学习和成长的建议: ●最高效的方式是发掘新的可能性,定义对自己有价值的东西。 ●从现在的回答问题转向学会如何提出问题,以及如何确定哪些问题值得提出。也就是从知识执行转向知识战略。 ●知识广度和思维清晰度将很重要。 ●直接学习所有详细的知识已经变得不必要了:我们可以在更高的层次上学习和工作,抽象掉许多具体的细节。“整合”,而不是专业化。尽可能广泛、深入地思考,尽可能多地调用知识和范式。 ●学会使用工具来做事。过去我们更倚重逻辑和数学,以后要特别注意利用计算范式,并运用与计算直接相关的思维方式。
是哪个情绪稳定的宝贝周日晚上看书把自己看生气了?哦是我。曾经每天用wolfarmalpha教书科研的数学博士,现在在硅谷带团队做基于GPT模型的产品开发。翻开这本大众科普书是纯自然的好奇,尤其Sam本人还说这是“他见过的对ChatGPT最佳解释”,但看完就是一整个被骗的感觉。 首先wolfram自己在书里都说了,他自己只是个GPT“爱好者”,写这本书需要很多人帮助。 那他为什么要写这本书? 当然是给自家产品wolfram alpha带货。 全书一个努力想要传达的核心信息在104页(也就是主篇末尾):凡是涉及不可约计算的事情,大脑和像ChatGPT这样的东西都必须寻求外部工具,比如wolfarm语言的帮助。我想说我对这观点没有意见,但这明里暗里想要传达的观点,通篇的比较,四个章节的例证,在书名和封面上有半点体现吗?我这是读了一篇蹭ChatGPT热度的超长的wolfram alpha带货软文吗?真的有必要这样标题党吗? 不可否认看得出作者努力用通俗易懂的语言试图解释了时下大家最想了解的话题,只可惜很多地方过于简化几乎要扭曲了本来的含义,加上作者自己也不太懂,实在让内行看了头疼。 我又查了一下,第一篇介绍ChatGPT的原文,可以在Stephen的writings网站找到,是没有第二章也没有那么多wolfram alpha广告的。所以如果Sam只评论了全书的一部分的内容,这样的推荐语用来给整本书的内容带货真的合适吗? 以上仅代表个人看法。
其实这真是本给小白解释ChatGPT原理的科普书,让我尝试来梳理一下吧。 关于ChatGPT原理的部分,每个小章节逻辑脉络如下: 【它只是一次添加一个词】主要讲ChatGPT的原理就是一个概率模型,每次都是在预测下一个词是什么。 【概率从何而来】需要构建一个大语言模型,概率从这个大语言模型里来 【什么是模型】用来做预测所依据的那个东西,就叫模型。, 【类人任务(human-like task)的模型】举了个图像识别的例子,但没给明确回答 【神经网络】为了解决上一小节图像识别的问题,引出神经网络,介绍了一下神经网络的基本概念,一层层嵌套或叠加的……函数 【机器学习和神经网络的训练】介绍神经网络的训练过程,也就是“猜”这个函数里的参数都是什么 【神经网络训练的实践和学问】你说它是门科学,其实它更像是艺术,也开始说是玄学……简单介绍了下如何确定神经网络的规模、从哪儿获取训练数据,获取多少训练数据。 本节书中摘录: 1、神经网络的实际学习过程是怎样的呢?归根结底,核心在于确定哪些权重能够最好地捕捉给定的训练样例 2、整个训练过程可以通过损失的减小趋势来描述 3、神经网络的基本思想是利用大量简单(本质上相同)的组件来创建一个灵活的“计算结构”,并使其能够逐步通过学习样例得到改进。在当前的神经网络中,基本上是利用微积分的思想(应用于实数)来进行这种逐步的改进。但越来越清楚的是,重点并不是拥有高精度数值,即使使用当前的方法,8位或更少的数也可能已经足够了。 【“足够大的神经网络当然无所不能!”】感觉稍微有点文不对题,看标题应该想说的是当模型数据和参数规模足够大,就会产生预期之外的涌现能力这件事,但是前面说的那些例子和道理,过渡过来感觉有点牵强,大家见仁见智吧。 本节书中摘录: 1、可学习性和计算不可约性之间存在根本的矛盾。学习实际上涉及通过利用规律来压缩数据,但计算不可约性意味着最终对可能存在的规律有一个限制。 2、神经网络能够在写文章的任务中获得成功的原因是,写文章实际上是一个“计算深度较浅”的问题,比我们想象的简单。从某种意义上讲,这使我们距离对于人类如何处理类似于写文章的事情(处理语言)“拥有一种理论”更近了一步。 【“嵌入”的概念】书中摘录:一种尝试通过数的数组来表示某些东西“本质”的方法,其特性是“相近的事物”由相近的数表示。说人话就是神经网络里说白了是数学函数,处理的是数,怎么把图像、文字转换成数(也就是向量)就是嵌入技术要做的事情。 【ChatGPT的内部原理】前面都是铺垫,终于开始ChatGPT了,这小节主要是讲Transformer, 它的操作分为三个基本阶段,直接摘一下书里的描述: 第一阶段,它获取与目前的文本相对应的标记序列,并找到表示这些标记的一个嵌入(即由数组成的数组)。 第二阶段,它以“标准的神经网络的方式”对此嵌入进行操作,值“像涟漪一样依次通过”网络中的各层,从而产生一个新的嵌入(即一个新的数组)。 第三阶段,它获取此数组的最后一部分,并据此生成包含约50000个值的数组,这些值就成了各个可能的下一个标记的概率。(没错,使用的标记数量恰好与英语常用词的数量相当,尽管其中只有约3000个标记是完整的词,其余的则是片段。) 说句实话,要不是我知道他想说啥,我是真看不懂他在说啥😂😂 就是首先把一段文本转成向量数组,然后经过N轮神经网络的转换(这个神经网络不普通,是基于注意力机制的Transformer,N的大小是模型定的),拿到最后一个嵌入向量数组之后进行解码,得到的就下一个token的概率列表。 【ChatGPT的训练】 摘录:先提供一批样例,然后调整网络中的权重,以最小化网络在这些样例上的误差(“损失”)。根据误差“反向传播”的主要问题在于,每次执行此操作时,网络中的每个权重通常都至少会发生微小的变化,而且有很多权重需要处理。(实际的“反向传播”通常只比前向传播难一点儿—相差一个很小的常数系数。) 未完待续…… 因为老外写书天马行空,又不爱写章节之间逻辑关系,再加上翻译问题,于是初学者看不懂,行内人没必要看,导致这书有点尴尬
三星!阅读本书对于笔者的意义是探究ChatGPT究竟是在做人类重复的工作,还是可能超越人类。基于这个目的,能够提供答案者,就必须是业界权威大神,且能够无私分享。而本书符合要求,正如导读序所概括的是“奇事·奇人·奇书!” 作者斯蒂芬·沃尔弗拉姆是位大神,“他虽然并不是马斯克那种在大众层面妇孺皆知的科技名人,但在科技极客小圈子里名气很大,被称为’在世的最聪明的人’。谷歌的创始人之一谢尔盖·布林在大学期间曾经慕名到沃尔弗拉姆的公司实习”。 “像斯蒂芬·沃尔弗拉姆这样的大神能动手为广大读者极为关注的主题写一本通俗读物,这本身就是一个奇迹”。本书出版后,OpenAI的CEO称之为“对ChatGPT原理最佳的解释”。全书短小却精悍,较为清晰地将ChatGPT核心阐述。 ChatGPT与其他AI应用最大的不同,在于对人类语言的无缝传承。而人类语言,及其生成所涉及的思维过程,一直被视为复杂性的巅峰。人类大脑以约1000亿个神经元及约100万亿个连接,产生了抽象的人类语言,这个过程一直被视为奇迹。 但是有了ChatGPT之后,尽管我们依然难以理解,不知道它产生人类语言的详尽逻辑,但这不妨碍我们可以知道一个连接数与大脑神经元数量相当的纯粹的人工神经网络,就能够出色地生成人类语言。“大模型能学到真实世界的压缩表示”。 从这个结论,我们引申出神经网络解决复杂问题比解决简单更容易。其原因在于,当有很多“权重变量”时,高维空间中有很多不同方向可以引导到达最小值;而当变量较少时,很容易陷入局部最小值的“山湖”,无法找到“出去的方向”。 如此,以ChatGP为代表的AI并非是在重复人类走过的路,做过的工。它能给出答案或建议,并不代表产生的逻辑与人类一致。对于训练类人任务的最好方法是尝试训练神经网络来解决端到端的问题,让它自己发现必要的中间特征和编码等。 概率、类人类任务模型、神经网络、无监督学习、可学习性与计算不可约、嵌入、标记、Transformer等。人类已经找到了可以使用人类语言的ChatGPT,它将会像人类一样使用已有的或未出现的人类的各类积累,包括其他的AI,被赋能。 由此推广,ChatGPT的进展将会在各个领域产生类似的效应:“以前认为很难的课题,其实换个角度来看并不是那么难的。加上GPT这种通用智能助手的加持,一些任务从基本不可能变成了基本可行,最终使全人类的科技水平达到新高度”。 关于我阅读本书所期许的答案,大致如此:“ChatGPT这种通用人工智能的出现证明了人类本质上没有任何特别的东西”。因此人类努力完成的事情会逐渐自动化。很多人认为是人类特有的创造力或原创力、情感、判断力等,AI应该也可以。 呜呼!有了AI,人类咋办?作者给了不少醍醐灌顶的建议:1、从回答问题转向学会如何提出问题;2、将从知识的深度转向知识广度和思维清晰度;3、专业化具体的路径已不重要,而是学习如何调用知识和范式;4、学会以计算的方式思考”。
1个小时不到读完。。。 怎么说呢,对我来说,其实书里面的内容就几句话有用,其他的要么太高端理解不了,要么就是写的太肤浅了😂😂😂。。。 不过chatgpt确实给我的工作带来不少的便利,有了它,我可以少写太多代码了。。。
“奇事+奇人,本书当然可谓奇书了”,不是,导读叔叔你认真的嘛么?带货奇书?那微信读书第一个“不行”先摁你手上叭嘻嘻~ 第一篇作者浅入浅出的用深度神经网络唠叨了GPT的机理,但是对于数据集,模型结构,模型训练蜻蜓点水,对于非专业领域的读者太专业,对专业的读者又没有满足探究的欲望。接着探讨了宏观层面GPT对于语言学规律的启发与可能性,这一点确实让人耳目一新,也是作者多年探究语言底层逻辑的沉淀与畅想。可能对大部分读者来说是篇晦涩了些的爽文,最后陪着作者乐呵了一番未来。 第二篇满篇是作者对于wolfram语言的推介,作者在计算范式和计算语言上深耕多年,他的理想与目标之一是“直接把ChatGPT的类人世界和Wolfram语言的精确计算世界结合起来”,所以一直把GPT和wolfram语言放一块做比较拍合照,也即第二篇文章的主旨与情调。 两篇文章目的性明确,人文启发性惊人的强,但是编一起叫这就是chatGPT的技术类书籍,小人哭着闹着不想接受。 总体来说,技术细节很弱,做入门读物也还不如去某站看三两靠谱视频来的快活肆意。
一直在探索AI与人类的关系,虽然有些文章看得懵懂,但比初入门时瞎紧张好受多了。 导论摘抄: 读后摘抄 1.所有行业、应用、软件、服务,都值得基于大模型能力重做一遍。 2.产生“有意义的人类语言”需要什么?过去,我们可能认为人类大脑必不可少。但现在我们知道,ChatGPT的神经网络也可以做得非常出色……我强烈怀疑ChatGPT的成功暗示了一个重要的“科学”事实:有意义的人类语言实际上比我们所知道的更加结构化、更加简单,最终可能以相当简单的规则来描述如何组织这样的语言。 3.人工智能的进展有可能在各学科产生类似的效应:以前认为很难的课题,其实换个角度来看并不是那么难的。加上GPT这种通用智能助手的“加持”,“一些任务从基本不可能变成了基本可行”,最终使全人类的科技水平达到新高度。 4.“(人类)本质上没有任何特别的东西——事实上,在计算方面,我们与自然中许多系统甚至是简单程序基本上是等价的”。因此,曾经需要人类努力完成的事情,会逐渐自动化,最终能通过技术免费完成。 5. 根据“计算不可约性原理”(即“总有一些计算是没有捷径来加速或者自动化的”,作者认为这是思考 AI 未来的核心),复杂系统中总是存在无限的“计算可约区”,这正是人类历史上能不断出现科学创新、发明和发现的空间。所以,人类会不断向前沿进发,而且永远有前沿可以探索。同时,“计算不可约性原理”也决定了,人类、AI、自然界和社会等各种计算系统具有根本的不可预测性,始终存在“收获惊喜的可能”。人类可贵的,是有内在驱动力和内在体验,能够内在地定义目标或者意义,从而最终定义未来。 6.人类不会受限于技术的演变,只会受限于自身发展的目标。 7. 我们又应该怎么做呢? 沃尔弗拉姆给出了如下建议。 口 最高效的方式是发掘新的可能性,定义对自己有价值的东西。 口 从现在的回答问题转向学会如何提出问题,以及如何确定哪些问题值得提出。也就是从知识执行转向知识战略。 口知识广度和思维清晰度将很重要。 口 直接学习所有详细的知识已经变得不必要了:我们可以在更高的层次上学习和工作,抽象掉许多具体的细节。“整合”,而不是专业化。尽可能广泛、深入地思考,尽可能多地调用知识和范式。 口 学会使用工具来做事。过去我们更倚重逻辑和数学,以后要特别注意利用计算范式,并运用与计算直接相关的思维方式。 一些段落理解: Stephen Wolfram在一次演讲中提到,ChatGPT也会犯错,似乎觉得理所应当。据此,我认为保留一些容错性,或是在AI自然发展的过程中产生的“错误”不失为一件好事,毕竟现在世上没什么东西是令人类可以完全信任的。在人类学习的过程中,错误是不可避免的,而AI在学习人类的过程中,自然也无法避免错误。说不准这种“错误”是来源于人类,还是AI现期的发展不够。至少让人类面对AI时产生了一种“警惕性”而不是服从。我们应始终保留一份怀疑。AI与人类应相辅相成,而不是考虑到底谁战胜了谁。哈尔9000和Tars(Case),都有存在的理由。 (注:两者分别来源于电影:《太空漫游2001》《星际穿越》) “技术以某种方式实现了一种新职业……一个世纪前,电话的日益广泛使用意味着越来越多的人担任总机接线员。但后来电话交换实现了自动化,不再需要那些总机接线员了。但随着自动交换的出现,电信基础设施可能会得到巨大发展,从而开辟各种新型工作岗位,这些工作岗位的总人数将远远超过以往的总机操作员。 会计文员也发生过类似的情况。在计算机出现之前,人们需要费力地统计数字。但有了计算机,这一切都被自动化了。但随着自动化的到来,人们能够进行更复杂的金融计算,从而实现更复杂的金融交易、更复杂的监管等,从而催生了各种新型工作。” AI的出现会带来新型职业,至于是否会带来像电话接线员和会计文员那种幸运的就业率,这是个赌局。
读《这就是ChatGPT》有感 当我翻开《这就是ChatGPT》这本书时,内心充满了对人工智能的好奇与期待。这本书由斯蒂芬·沃尔弗拉姆所著,他用简单易懂的语言,结合生动有趣的例子和图表,让我深入了解了ChatGPT这一人工智能技术的奥秘。 在阅读过程中,我感受到了作者对于人工智能的热情与幽默。他不仅从技术的角度剖析了ChatGPT的工作原理,还从人文的角度探讨了人工智能与人类思维和语言的关系。这本书不仅是一本科普书,更是一本启发书,让我对人工智能有了更深刻的认识和理解。 通过这本书,我看到了人工智能的无限可能性和潜力。ChatGPT作为一种自然语言处理技术,已经在许多领域得到了广泛应用,如智能客服、语言翻译、教育等。它不仅能够理解人类的语言,还能生成自然流畅的回答,让人类与机器之间的交流变得更加便捷高效。 然而,书中也提到了人工智能的局限和挑战。尽管ChatGPT在处理自然语言方面取得了显著进展,但它仍然无法完全替代人类的思维和创造力。人工智能在处理复杂问题、理解人类情感等方面还存在一定的局限性。此外,随着人工智能技术的不断发展,我们也需要关注其可能带来的道德和伦理问题。 在阅读这本书的过程中,我对未来充满了好奇和期待。我相信,随着科技的进步,人工智能将会在更多领域发挥重要作用,为人类带来更多的便利和福祉。但同时,我们也应该意识到,我们需要谨慎地面对人工智能的发展,充分考虑到其可能带来的挑战和风险。 总的来说,《这就是ChatGPT》这本书让我对人工智能有了更全面的认识,也让我对未来充满了期待和担忧。我相信,在未来的发展中,我们需要在探索人工智能潜力的同时,也要关注其可能带来的问题,努力寻找平衡和可持续发展的道路。同时,我也期待未来有更多类似的作品出现,让我们能够更深入地了解人工智能的奥秘和挑战。
我试图梳理了需要理解本书的概念: 1、何谓GPT(Generative Pretrained Transformer)生成式预训练Transformer模型; 2、模型(Model)怎样进行文本延续:模型Model、语言模型LM、自然语言处理NLP、大语言模型; 3、神经网络(Neural Networks):人脑神经元的运作原理,模型如何模拟人脑的高级认知功能(视觉、情感、记忆); 4、通用模型如何处理图片:层(Layers)、Transformer 深度学习架构、嵌入(Embedding)、标记(Token); 5、计算的不可约性(Computational Irreducibility); 1、何谓GPT(Generative Pretrained Transformer)生成式预训练Transformer模型,属于大型语言模型LLM(Large Language Model)。 -「生成式」(Generative),意味着模型具有生成新内容的能力。预训练(Pretrained),模型在特定任务之前,已经经过了大规模数据训练。Transformer 是一种基于注意力机制的神经网络架构。 -「模型」(Model),计算机科学中,模型指用一个数学表示,用于描述一个系统或者现象;在机器学习中,模型通过数据训练得到算法,用于执行特定任务。 -「语言模型」(Language Model) 自然语言处理(NLP)(Natural Language Processing):处理和理解人类语言的技术和方法。 大型语言模型(LLM)中的“大”(Large), • 大规模数据训练:大型语言模型在大量的文本数据上进行训练。例如,GPT-3模型使用了45TB的文本数据进行预训练。 •大参数量:这些模型通常包含数亿到数千亿个参数(如权重和偏置),使得它们能够捕捉语言中的复杂模式和细微差别。参数:用于拟合数据的一定数量的“旋钮”(也就是可以设置的参数)。GPT-3使用了1750亿个“旋钮”参数。 • 大计算资源:训练这些模型需要极高的计算能力和存储资源,通常使用分布式计算集群和专门的硬件(如GPU或TPU)。 大任务范围:大型语言模型能够执行广泛的任务,包括文本生成、翻译、摘要、问答、对话等,展现出较高的通用性和灵活性。 一次添加一个词GPT的工作原理是以一种合理且类似人类的方式继续给定的文本提示。 当ChatGPT做一些事情,比如写一篇文章时,它实质上只是在一遍又一遍地询问“根据目前的文本,下一个词应该是什么”,并且每次都添加一个词。[正如我将要解释的那样,更准确地说,它是每次都添加一个“标记”(token),而标记可能只是词的一部分。这就是它有时可以“造词”的原因。] 文本延续(continuation of text)可以理解为根据已有的文本内容,按照一定的逻辑和语义规则,继续生成后续的文本内容。在自然语言处理中,这通常涉及到利用模型对语言模式的学习和理解,来推测接下来可能出现的词句,以保持文本的连贯性和合理性。 2、神经网络(Neural Networks)在计算机领域,神经网络(Neural Networks)是一类受生物神经系统启发的计算模型,用于模式识别、分类、回归和其他复杂任务。它们通过模拟大脑神经元之间的连接和通信,学习从数据中提取特征和规律。 基本过程:神经元(Neurons)接收信号→层(Layers)→接受数据提取深层特征输出结果→权重(Weights)连接的参数→激活函数(Activation Functions)非线性函数 神经网络的类型:前馈神经网络、卷积神经网络、循环神经网络、生成对抗网络、Transformer网络; 神经网络中的各种层:卷积层(Convolution Layer)、池化层(Pooling Layer)、展平层(Flatten Layer)、线性层(Linear Layer)和Softmax层(Softmax Layer)。 - 卷积层(Convolution Layer): 介绍了卷积操作及其在特征提取中的作用。 - 池化层(Pooling Layer): 解释了池化层在数据和参数压缩、减少过拟合方面的作用。 - 展平层(Flatten Layer): 描述了将多维数组压缩为一维数组的过程。 - 线性层(Linear Layer): 介绍了线性层及其别名(全连接层或密集层)。 - Softmax层(Softmax Layer): 解释了Softmax层在输出概率分布中的作用。 而本书中涉及到的是卷积神经网络进行图片处理,重点讲解的是卷积层和池化层提取空间特征,Transformer网络采用注意力机制进行自然语言任务处理; 类人任务(human-like task)模型:如图像识别,模仿人类认知能力执行复杂任务。 机器学习和神经网络训练:机器学习使用算法从数据中学习,而神经网络是一种特定类型的机器学习算法,包含多层连接的“神经元”。 如果用计算机的神经网络与人脑的神经网络来类比,神经元(Neurons)在神经网络中对应于人脑中的神经元。层(Layers)在神经网络中对应于人脑的不同区域或层次。 2.1人类的神经元(Neuron)与神经(Nerve)神经(Neuron):神经是构成神经系统的基本单位,也称为神经元。神经元是一种细胞,具有接收、处理和传递神经信号的功能。每个神经元都包括细胞体、树突和轴突等部分。神经元通过电化学信号(动作电位)传递信息,并通过突触连接其他神经元或目标细胞。 神经(Nerve):神经也可以指代神经系统中的神经纤维束,这些纤维束包含大量的神经元轴突,负责将信息传递到不同的部位。神经系统由中枢神经系统(包括大脑和脊髓)和周围神经系统(包括神经节、神经纤维和神经末梢)组成。 1.Dendrites(树突):接收其他神经元传来的信号的短小突起。 2. Soma(细胞体):神经元的主体部分,包含细胞核、细胞质和其他细胞器。 3. Axon(轴突):从神经元细胞体延伸出的长突起,传递神经信号到其他神经元或目标细胞。 4.Node of Ranvier(Ranvier节):位于髓鞘中间的间隙,帮助加速神经信号的传递。 5. Axon Terminal(轴突末端):位于轴突末端的分支结构,通过化学物质将信号传递给下一个神经元或目标细胞。 6.Schwann Cell(施万细胞):周围神经系统中的一种细胞,负责包裹轴突形成髓鞘。 7. Myelin Sheath(髓鞘):由Schwann细胞或oligodendrocytes形成,包裹在轴突周围,帮助传递神经信号并提高传递速度。 8.Nucleus(细胞核):位于细胞体内的结构,包含遗传物质DNA,控制细胞的生存和功能。 1~6是神经元,7-8是神经 人脑的神经元工作的过程可以简要描述为: 接收信息:神经元通过树突(Dendrites)接收来自其他神经元的化学信号,这些信号称为突触传递物质(Neurotransmitters)。 整合信息:接收到的信号在神经元的细胞体(Soma)中被整合和处理。如果接收到的总体信号强度超过一定阈值,神经元就会被激活。 产生动作电位:一旦神经元被激活,就会在轴突(Axon)中产生电信号,称为动作电位(Action Potential)。 传递信息:动作电位沿着轴突迅速传播,通过节点(Node of Ranvier)加速传递,最终到达轴突末端(Axon Terminal)。 释放神经递质:在轴突末端,动作电位会引起神经递质的释放,将化学信号传递到下一个神经元的树突,或者传递给目标细胞(如肌肉细胞或其他神经元)。 终止信号传递:神经递质的释放结束后,神经元会恢复到静息状态,等待下一次信号的到来。 人的大脑神经元数量:据估计,人类大脑拥有约800亿至1000亿个神经元。这些神经元之间通过复杂的突触连接形成神经网络,并通过电信号和神经递质传递信息。 神经网络(Neural Network):由大量神经元和突触连接而成的网络结构。神经网络分为感觉神经网络、中枢神经网络和运动神经网络,负责接收、处理和输出不同类型的信息。 对应人脑如此庞大的神经元,神经网络需要有对应量级的模型,同时,人的复杂的认知行为:视知觉、语言与脑成像、学习和记忆、情绪、意识。于此,模型要模仿人脑的复杂认知行为,那么,识别与处理图片,理解语言,记忆功能,情绪,就是重大的挑战。 2.2 什么是模型(Model)理论科学的本质:建立一个模型,用它提供某种计算答案的程序,而不仅仅是在每种情况下测量和记录。 在计算机中,模型通常指的是通过数据和算法构建的一种数学结构或框架。 它可以是机器学习模型,如神经网络模型,用于对数据进行学习、识别、分类、预测等任务。这些模型经过大量数据的训练,从而具备从输入数据中提取特征和规律并做出相应输出的能力。 还有深度学习模型,是机器学习模型的一种更为复杂和强大的形式,能够处理大规模数据和复杂任务。 另外,还有一些用于自然语言处理、计算机视觉、语音识别等特定领域的模型,它们各自针对相应领域的特点和需求进行设计和优化。 计算机中的模型是实现智能化应用和处理的关键,它们使得计算机能够模拟人类的认知和决策过程,以更好地解决各种实际问题。例如,图像识别模型可以准确识别图像中的物体,推荐系统模型可以根据用户的行为和偏好提供个性化的推荐等。 你使用的任何模型都有某种特定的基本结构,以及用于拟合数据的一定数量的“旋钮”(也就是可以设置的参数)。对应人脑拥有约800亿至1000亿个神经元的复杂度,ChatGPT使用了许多这样的“旋钮”—实际上有1750亿个。 2.3 温度参数(Temperature Parameter)自然语言处理(Natural Language Processing,简称 NLP)是计算机科学和人工智能领域的一个分支。它主要致力于让计算机能够理解和处理人类自然语言,包括以下几个方面: 语言理解:分析和解读自然语言文本的含义,包括词汇、语法、语义等层面。 文本生成:根据给定的主题或提示生成自然语言文本。 机器翻译:将一种语言自动翻译成另一种语言。 问答系统:回答用户提出的问题。 信息抽取:从文本中提取特定的信息,如人名、地名、事件等。 情感分析:判断文本所表达的情感倾向。 在机器学习和深度学习中,温度参数(Temperature Parameter)主要用在Softmax函数中,用于调整概率分布的平滑度。 之前提到,GPT每次只生成1个词,也就是存在随机性。每次都会不一样。 这里存在随机性意味着,如果我们多次使用相同的提示(prompt),每次都有可能得到不同的文章。 如果每次都使用Rank最高的词,那么就会“无聊”。 3、模型如何处理图片识别3.1一个通用的处理图片识别任务的流程:1. 数据预处理 图像缩放和裁剪: 将图像调整为固定大小,确保输入尺寸一致。 归一化: 将图像像素值归一化到特定范围(例如0到1)。 数据增强: 通过旋转、平移、翻转等技术扩展数据集,提高模型的泛化能力。 2. 图像输入处理 图像分块(Patching): 将图像划分为固定大小的块(patches),类似于Vision Transformer(ViT)的做法。 嵌入向量(vector): 将每个图像块转换为向量表示,这些向量相当于Transformer中的词嵌入(word embeddings)。 嵌入(Embedding):将单词或句子转化为向量(vector)形式,以捕捉其语义信息。 一种将高维数据转换为较低维度的向量表示的技术。它可以将离散的、非连续的数据,如文本或图像,转换为连续的向量,以便于计算机进行处理。 标记(Token):处理文本时,将文本拆分成的基本单位,如单词或子词。 在计算机科学中,标记(Token)通常指的是字符串中的一个基本单位,可以是一个字符、一个单词、一个标点符号或其他具有特定含义的字符序列。在自然语言处理中,标记通常是指单词或词语。 3. 神经网络层处理 a. 卷积层(Convolution Layer) 卷积操作: 使用卷积核(滤波器)扫描输入图像或特征映射,提取局部特征。 ReLU激活函数: 应用ReLU激活函数引入非线性,帮助模型学习复杂特征。 b. 池化层(Pooling Layer) 最大池化或平均池化: 通过池化操作(例如最大池化或平均池化)降低特征图的尺寸,减少计算量和参数数量,同时保留重要特征。 c. Transformer编码层 位置编码(Positional Encoding): 为每个图像块添加位置信息,使模型能够感知图像块在原始图像中的位置。 多头自注意力机制(Multi-Head Self-Attention): 每个图像块与其他所有图像块交互,以捕捉全局信息和图像上下文。 前馈神经网络(Feed-Forward Neural Network): 在每个注意力层之后应用前馈神经网络进行进一步处理。 4. 输出和分类 d. 展平层(Flatten Layer) 展平操作: 将多维特征图展平为一维向量,为全连接层输入做准备。 e. 线性层(Linear Layer) 全连接层(Fully Connected Layer): 将展平的一维向量通过一个或多个全连接层,进一步提取特征并进行分类。 f. Softmax层(Softmax Layer) Softmax激活函数: 在输出层使用Softmax激活函数,将输出转换为各类别的概率分布。 5. 模型训练 损失函数: 通常使用交叉熵损失函数对分类任务进行优化。 优化算法: 使用梯度下降算法(如Adam、SGD等)调整模型参数,最小化损失函数。 6. 评估和推理 模型评估: 在验证集或测试集上评估模型性能,计算准确率、召回率、F1分数等指标。 推理: 将新图像输入模型,使用训练好的模型进行预测,输出分类结果。 Vision Transformers(ViTs)是将Transformer架构应用于图像识别的一种方法。 示意:Input Image -> Split into Patches -> Linear Embedding -> Add Position Encoding -> Transformer Encoder Layers -> Classification Head -> Output 3.2 Transformer 神经网络架构Transformer是一种神经网络架构,最初是为了解决自然语言处理(NLP)任务而提出的。与传统的递归神经网络(RNN)不同,Transformer不依赖于顺序处理输入数据,而是能够并行处理整个输入序列。 Transformer的基本组成部分 Transformer主要由两个部分组成:编码器(Encoder)和解码器(Decoder)。每个部分由多个相同的层堆叠而成。 编码器(Encoder): 编码器的任务是接收输入数据(如一段文本)并将其转换成一组表示(向量)。 每个编码器层都包含两个主要部分:自注意力机制(Self-Attention Mechanism)和前馈神经网络(Feed-Forward Neural Network)。 解码器(Decoder): 解码器的任务是根据编码器的输出生成目标数据(如翻译后的文本)。 每个解码器层也包含两个主要部分:自注意力机制和前馈神经网络,但它还多了一个编码器-解码器注意力机制(Encoder-Decoder Attention Mechanism)。 自注意力机制(Self-Attention Mechanism) 自注意力机制是Transformer的核心。它的作用是计算输入序列中每个位置对其他位置的重要性,从而更好地理解整个序列的上下文信息。 举个例子: 假设我们有一句话:“The cat sat on the mat”。我们希望了解“cat”和“mat”之间的关系。 自注意力机制会计算“cat”对句子中每个词的重要性(包括“the”、“sat”、“on”、“the”、“mat”)。 通过这种方式,模型能够理解“cat”和“mat”之间的关联,而不需要逐字逐句地处理整个句子。 Transformer的优点 并行处理: 由于自注意力机制,Transformer能够同时处理输入序列中的所有位置,提高了计算效率。 长距离依赖: Transformer能够更好地捕捉输入序列中远距离的依赖关系,而不是像RNN那样依赖于逐字处理。 可扩展性: Transformer可以轻松地扩展到更大的数据集和更复杂的任务。 Transformer的应用 Transformer已经被广泛应用于各种NLP任务,如机器翻译、文本生成、文本分类等。此外,Transformer还被应用于计算机视觉任务,如图像分类和目标检测。 4、计算的不可约性(Computational Irreducibility)斯蒂芬·沃尔弗拉姆(Stephen Wolfram)提出的计算不可约性(Computational Irreducibility)是一个重要概念。 它指的是在某些复杂系统中,无法通过更简单、更快捷的方式来预测其未来状态或行为,必须实际进行完整的计算过程才能得到结果。也就是说,不存在一种捷径或简化的方法来跳过实际的计算步骤而直接获得最终答案。 5、GPT与Wolfram模型的差别GPT:专注于自然语言的理解和生成,处理自然语言文本。 Wolfram模型:侧重于知识计算和问题求解,更多用于科学和工程领域的问题解决。 所以,GPT有时候会“胡说八道”。
从150页-200页直接略过了,还是有些阅读门槛的。总结下, 1.chatgpt的基本原理是根据已知的词或词组寻找下一个应该出现的词,这个词并非是大语料库中概率最高的,具有一定的随机性。 2.神经网络是chatgpt的基础,神经网络至今具有不可解释性,他是通过机器学习的方法不断调参(权重),实现结果的可用性,但内在的运行逻辑很难解释,就像人脑神经网络决策一样。 3.chatgpt类人思维并不是终极答案,有时是在一本正经胡说八道。因为人类社会是因为进入了精密计算和理性思维阶段才发展到现在。那么能实现一般性理性计算的语言Wolfram可以与chatgpt结合发挥更大价值。 具体来说, 前半部分从chatgpt的基本逻辑讲起,从而引出神经网络是chatgpt的基础,这一很大程度上对人类还是不可解释的算法结构,是机器学习能得以发展到如今的里程碑式的算法,图像识别、智能驾驶我们熟悉的领域都是神经网络作为基础。而神经网络的基础又是对事物—不管是物理的、具体的,还是概念的、抽象的—的数值化的表达,也就是数组的表达式。当更详细讨论嵌入、标记等概念的时候,我完全lost。 后半部分介绍了Wolfram|alpha模型,它和chatgpt的相同之处是都支持以自然语言作为输入,但不同的是处理输入的底层逻辑不一样。chatgpt有时确实在进行一本正经的胡说八道。比如作者觉得中美第二大国家是哪个的例子,它还是说了一堆但是给了个错误答案。作者认为类人思维并不能完美的处理很多逻辑、计算问题,而人类社会能发展至今是因为我们创造了精密计算和严谨推演的的科学方法(大概这个意思),Wolfram这个模型是希望能找到一个表达事物关键本质的方式并据此进行精准的计算。那么很自然地想到如果能将Wolfram嵌入chatgpt,也许能解决chatgpt回答不了的要求精度较高的问题。
ChatGPT 学习应用系列-7: 从理论及应用原理角度,观察,分析,归纳介绍该技术(2023),它完全是些基础性内容。如果能够学以致用,结合应用chatGPT来解释其中名词术语,及其它成分,非专业读者应该可以基本看懂。当然要会用好读书过程中,“脸不变色心不跳”之“三级跳”,见好就收,绝不纠结,特别因为它不是在自己专业内部读书。当然,如果有统计学中,例如,“数据模型”构建基础可能会受益。好在现在chatGPT 就是不懂,依然也可以学会,用好它这们工具,就像不懂“百度”原理一样可以用好它。当然,艺多不压身,多学一点基本原理,有良好基本架子功只有好处。 例如,作者认为:“ChatGPT(或者说它基于的GPT-3网络)到底是在做什么呢?它的总体目标是,根据所接受的训练(查看来自互联网的数十亿页文本,等等),以“合理”的方式续写文本。所以在任意给定时刻,它都有一定量的文本,而目标是为要添加的下一个标记做出适当的选择。 它的操作分为三个基本阶段。第一阶段,它获取与目前的文本相对应的标记序列,并找到表示这些标记的一个嵌入(即由数组成的数组)。第二阶段,它以“标准的神经网络的方式”对此嵌入进行操作,值“像涟漪一样依次通过”网络中的各层,从而产生一个新的嵌入(即一个新的数组)。第三阶段,它获取此数组的最后一部分,并据此生成包含约50000个值的数组,这些值就成了各个可能的下一个标记的概率”………。 作者✍️认为,ChatGPT的成功为一个基础而重要的科学事实向我们提供了证据:它表明我们仍然可以期待能够发现重大的新“语言法则”,实际上是“思维法则”。……本书作者提供系列技术型诠释语言说明,例如其一些具体“语义语法和计算语言的力量”等。 另外,作者提供大量例证深度说明,例如,“几十年来,对AI的思考一直存在着两极分化:ChatGPT使用的“统计方法”,以及实际上是Wolfram|Alpha的起点的“符号方法”。现在,由于有了ChatGPT的成功以及我们在使Wolfram|Alpha理解自然语言方面所做的所有工作,终于有机会将二者结合起来,发挥出比单独使用任何一种方法都更强大的力量”。 简言之,本书内容十分的简明扼要,更重要的特点是,作者提出一些有深度独特的问题,并且用仅仅二百页内容来加以回答,似乎完全没有用ChatGPT来灌水增加字数😂👌⛽️!五星推荐!
值得一读,作者从第一性原理出发,深入浅出引导读者走完整个ChatGPT的基本生产流程并附以自己的思考实践,以下是我整理的一些思路笔记: ChatGPT干了什么:一次只添加特定概率一个词(实际上是一个token) ⬇️ 概率是怎么来的? ⬇️ 一个字母的概率👉一对字母的概率👉n个字母的概率 ⬇️ ⬇️演绎 ⬇️ 一个单词的概率👉一对单词的概率👉n个单词的概率 ⬇️ ⬇️随之而来的问题 ⬇️ 根本没有足够多的英文文本来推断这些概率(随着n的增加,词之间的排列组合无法穷举) ⬇️ ⬇️如何解决这个问题 ⬇️ 建立神经网络模型(一个称为Transformer的神经网络架构) ⬇️ ⬇️问题 ⬇️ 神经网络基本上是基于数的,但这里要处理的是文本 ⬇️ ⬇️如何处理 ⬇️ 引入嵌入(embedding)概念,将文本表示为数 ⬇️ ⬇️如何构建embedding ⬇️ 查阅大量文本,将“相近的事物”由相近的数表示 ⬇️ ⬇️ChatGPT是如何运行的 ⬇️ 1、第一阶段,它获取与目前的文本相对应的标记序列,并找到表示这些标记的一个嵌入(即由数组成的数组)。 2、第二阶段,它以“标准的神经网络的方式”对此嵌入进行操作,值“像涟漪一样依次通过”网络中的各层,从而产生一个新的嵌入(即一个新的数组)。 3、第三阶段,它获取此数组的最后一部分,并据此生成包含约50000个值的数组,这些值就成了各个可能的下一个标记的概率。 ⬇️ ⬇️训练之外 ⬇️ 尽管训练得到的结果比较合理,单仍存在“偏离正轨”的现象,如何让模型结果更优? ⬇️ ⬇️建立基于人工评价的神经网络 ⬇️ 让人类积极地与ChatGPT互动,看看它产生了什么,并且在“如何成为一个好的聊天机器人”方面给予实际反馈。但是神经网络是如何利用这些反馈的呢?首先,仅仅让人类对神经网络的结果评分。然后,建立另一个神经网络模型来预测这些评分。本质上像损失函数一样,从而使用人类的反馈对原始网络进行“调优”。 ⬇️ 更多关于ChatGPT的思考实践