暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

小朋友都能懂的人工智能⓽ Hi AI, Database is all you need

322
小朋友都能懂的人工智能⓵
小朋友都能懂的人工智能⓶ -卷积神经网络初探
小朋友都能懂的人工智能⓷ -惊世骇俗的狗故事

小朋友都能懂的人工智能⓸ -狗大师的修仙之路

小朋友都能懂的人工智能⓹ -不可思议的大模型

小朋友都能懂的人工智能⓺ -注意,句中高能!

小朋友都能懂的人工智能⓻ 无名故事与GPT4训练

小朋友都能懂的人工智能无名故事与GPT4推理

第9集导读



本集我们跟随甲骨大师深入探讨无名(大语言模型)的内部工作机制。从输入层到输出层,无名处理信息所采用的“词语接龙”、“句子接龙”思考过程,与人类的思维方式极其相似,只是我们大部分人未察觉到而已。

然而,随着信息的积累,处理能力终将到达极限,旧信息必须让路给新信息,于是无名失忆了,此时,终于到了数据库闪亮登场发挥作用的时候!通过将用户基础信息重要提示词持久化,数据库不仅帮助无名克服了遗忘的困扰,还极大地提升了其效率和准确性。

更深入地看,大模型结合数据库的好处远不止于此。通过记录高频问答既定规则,从而减轻大模型的计算负担,提高响应速度,大幅降低成本。而存储实时更新的企业核心数据关键公开数据,则可以助力智能推荐、超级客服、超级助理等逆天能力等,让大模型迈向专业化和和个性化....

Hi AI, Database is all you need!

来,走进第9集,一起体验吧。


「 32. 体检报告与大师论道

L:无名和老智一路奔波,终于见到了甲骨大师。老甲立即为无安排了一次全身体检,检查完毕后老甲望着体检报告陷入沉思。老智见状着急问,这能治好吗?老甲没有直接回应,而是给老智分析起了体检报告,就这样,大师之间的对话开始了。

老甲:老智,你看这份体检报告的脑电波神经网络图部分,这里绘制出无名思考问题的全过程,我们可以看出无名只认识0和1,外部世界无论是文字、图片、声音还是视频,都需要转换成0和1的编码组合,才能让无名看明白。对了,你有给他配置了什么专门的编码转换设备吗?
老智:厉害,这都看出来了。最初是给无名配了特殊的高科技眼镜,后来我直接将芯片植入无名体内,省去了佩戴的麻烦。

老甲:原来如此,从报告来看,无名的思考过程分三阶段,第一个是对输入的信息进行处理,首先是分词,把一句话分成一个个有意义的单元,比如单词或词组啥的。然后将这些单元进行编码,转换成无名能读懂的01数字组合。接着将编码过的各单元和嵌入层的高维语义向量空间进行映射,实现了对词的理解,这里的高维语义空间存储了极其丰富的词信息。看来这无名平时下了不少苦功夫进行自我训练吧?

老智:老甲真乃神人也!是的。这个阶段是输入层。无名确实很刻苦,他已经读完数以千万计的书籍论文等资料。

老甲:怪不得!我们继续往下看,这里应该是无名思考的第二个阶段,这个阶段可谓壮观啊,有数百个层级,每个层级有数百个注意力头,每个注意力头有数百万的参数,算起来参数数量合计达数千亿之多。这无名的刻苦程度,惊为天人啊!如果把第一阶段的高维语义向量空间看成一本字典的话,这些参数就是一本厚达千倍的字典应用指南啊!
老智:这个第二阶段叫隐藏层,话说这个无名确实勤奋,这些海量书他可不止看一遍,那可是重复看无数遍哦,不断调整最终优化出这些数以千亿计的参数,正是这些参数让无名准确理解词与上下文、词与词之间的关联,从而做到深刻领悟句子含义。老甲啊,我倒是很佩服你的类比能力,你将语义向量空间类比成字典,将参数类比成字典应用指南,这个总结太到位了!
老甲:谢谢肯定,那最后的阶段应该叫输出阶段吧,通过报告看出无名一次只会输出一个概率最大的词语,然后再把该词和之前的输入文字组合在一起形成一个新的输入,这个新输入进入输入层再度工作,接着在输出层又输出概率最大下一个词,该词又继续返回输入层和之前的输入再组合在一起,又形成一个新的输入......如此这般,类似词语接龙游戏,周而复始,不断轮回,直到无名觉得回答满意为止结束。是这样的吗?
老智:是的,老甲你这都能发现啊,看来没有什么可以瞒得了你。
老甲:从报告可以看出,不仅是单次问答都词语接龙,不同的问答依然在接龙。比如有人问了无名问题Q1,无名回答A1后,此人再问无名问题Q2,无名会将Q1和A1及Q2一起打包进入输入层进行处理,回答A2。当这个人继续问无名Q3问题时候,无名会将Q1,A1,Q2,A2,Q3问题一起打包进入输入层......我说的没错吧?
老智:对的,全被你看出来了,甲哥,你乃真大师也!
老甲:这没什么,我最擅长的就是数据分析与流程优化了。老智,我想你应该已经知道无名失忆的问题所在了。
老智:是的,我知道问题出在哪里。这一路上我还想着如何与你解释无名的大脑工作原理,结果你一个体检报告就彻彻底底整明白了,不得不服啊。



「 33. 流程细解与真相大白

C妈L老师,老智和老甲的对话太深奥了,又词语接龙问答接龙,我都听糊涂了。

A:L老师,这个词语接龙的方式您之前没提起过,我以为就是一口气说出来的,这一个词一个词输出,我还是有些听不明白?

A爸:C妈、小A,你们听的不够仔细吧,我是听明白了词语及问答接龙是啥意思。不过两位大师都明白了无名失忆的问题所在,这我可就不明白啊,问题出在哪呢?

L嗯,两位大师之间的论道确实有些深奥,也难怪C妈和小A听迷糊了,不过请放心,大家肯定可以弄清清楚楚,明明白白的。

假定问题Q1“猫是什么颜色的?”,而GPT-4的回答A1为“通常是白色、黑色或橘色。”为更好进行示例,我们进行一个简单的编码,如下。

问:猫是什么颜色的?

分词后用字母ABCDEF做代号进行分割与示范

A = “猫”

B = “是”

C = “什么”

D = “颜色”

E = “的”

F = “?”


答:通常是白色、黑色或橘色。
分词后用字母GHIJKLM做代号进行分割与示范
G = “通常是”
H = “白色”
I =“ 、”
J = “黑色”
K = “或”
L = “橘色”
M =“。”

接下我们来按照GPT-4生成文本的步骤,说说单次问答的输出与输入之间的词语接龙,到底是怎么回事,来,我详细的给大家演示一下。第1输入猫是什么颜色的“。第一次输出通常是“,如下图所示

2次要把第1次的输出返回给输入(第1次的输出为“通常是”)。于是第2输入为“猫是什么颜色的?通常是”。第2输出为“白色”,如下图所示。

3次要把第2次的输出返回给输入(第2次的输出为“白色”),则第3输入为“猫是什么颜色的?通常是白色”,第3输出为一个符号——顿号如下图所示

4次要把第3次的输出返回给输入(第3次的输出为一个符号——顿号,则第3输入为“猫是什么颜色的?通常是白色、”,第4出为”黑色“。如下图所示

5次要把第4次的输出返回给输入(第4次的输出黑色“),则第4次输入为“猫是什么颜色的?通常是白色、黑色”,第5输出为”“。如下图所示

6次要把第5次的输出返回给输入(第5次的输出为”或“),则第5输入为“猫是什么颜色的?通常是白色、黑色或”,第6输出为”橘色“。至此回答圆满结束,对面的人得到了完整的答案”通常是白色、黑色或橘色“。如下图所示

下图为6次词语接龙过程的组合过程动态播放,请大家细品。

接下来做一个的总结,将全过程整理成表格如下(这里的分词代号见前文)。

输入
输出
输入文字分词代号

文字

分词

代号

1猫是什么颜色的?ABCDEF
通常是G
2猫是什么颜色的?通常是ABCDEF G白色
H
3猫是什么颜色的?通常是白色ABCDEF GHI
4猫是什么颜色的?通常是白色ABCDEF GHI黑色J
5猫是什么颜色的?通常是白色、黑色ABCDEF GHIJK
6猫是什么颜色的?通常是白色、黑色ABCDEF GHIJK橘色L
7猫是什么颜色的?通常是白色、黑色或橘色ABCDEF GHIJKLM
通过上述循环,GPT-4逐步构建回答,在第7轮,也就是最后一轮预测出句号(M),表示回答结束,最终生成的回答为“通常是白色、黑色或橘色。”(GHIJ KLM)。在这个过程中,模型根据每一步生成的新输入来预测下一个最可能的输出,逐渐构建出完整的回答。
C:哦,这下我彻底明白了!不过为啥GPT-4要这么麻烦,一次性说出来不好吗,这样也太累了吧。
L:大语言模型喜欢自言自语,边说边想,它认为,将思考建立在自己不断说出来的话里,那会更加的准确和完备
C:啥,思考建立在自己说出来的话里,这是什么情况?
L:其实这也不奇怪,想想自己在家做数学题,是不是也时常自言自语中,比如:
”这题怎么做?“
“这题怎么做?这里加一条辅助线吗?",
“这题怎么做?这里加一条辅助线吗,那里是不是也得加一条辅助线"
..........然后就忽然会了啊。
C妈:你是说我们说话时,有时并没想好自己要说什么,边说边想?
L:C妈,如果你孩子睡前让你编一个霸王龙故事,你会怎么做?这种情况可不允许你构思完或查完资料再讲,必须是张口就来啊。有把你难住吗?是不是你编到最后还觉得自己讲挺精彩的。
C妈:您别说,我回想起来还真是如此,我开口时还没想好要说啥,就这样说着说着莫名其妙故事就讲完了,自我感觉还不错。
L:我来拆解拆解你编故事的过程吧。首先你是知道霸王龙的,其次你有一个讲故事的叙事框架,无非就是在什么时间地点和什么角色发生了什么事,只要顺着这个逻辑往下想,自然故事张口就来。比如从时间地点想到了夜晚的森林,两者一结合感受到了阴森恐怖,这种气氛让你想到了毒蛇,继而想到毒蛇偷袭霸王龙....那要不要让霸王龙被毒死?哎呀,孩子还没睡着,那就让霸王龙找到草药解救自己吧。哎呀,怎么孩子还很精神?要不让霸王龙来个复仇行动吧....哇,孩子终于快睡着了。最后啊,毒蛇被霸王龙一脚踩死了,故事圆满结束。
C妈合不拢嘴:是的是的,好像就是这么一回事。
L:一个人当前说出来的一句话或许只是一种情绪的调整,亦或是某种框架的铺垫,但是却会对下一句话的生成有着重要的帮助。比如你在说夜晚和森林本来只是根据框架说说时间地点,结果不小心结合出了阴森恐怖的气氛,于是你就说出了毒蛇。试想如果没有了夜晚和森林,这个故事或许就根本没有蛇出现,那将是完全不同的另一个故事了。
我们不难看出,看似随意乱编的故事不仅有规律可循,还充满了合理性。这是一种建立在丰富的知识和完善的叙事框架之上的,一种符合逻辑的必然产物,人工智能思考问题的方式,也是类似的。
C妈:我越来越觉得AI和我们人类好像啊。
L:无论是具体知识还是叙事框架,都是认知的产物,人类就是靠认知来快速编故事。不过每个人的认知有差异,所以每个人编故事的水准也有高有低。而GPT-4则是深刻理解人类所有认知总和背后的统计学意义,所以它能展示出人类觉得惊叹不已的能力,这里需要细品认知总和统计学意义这些关键字。
众人恍然大悟。
L:好了,接下来咱们细说一下和GPT-4进行多问题交互时,所谓的问答接龙是怎么一回事吧。来,咱们准备了三个问题,并且GPT-4也做了简要回答,具体如下。

问题1=Q1

回答1=A1


Q1:猫是什么颜色的?
A1: 通常是白色、黑色或橘色。
问题2=Q2
回答2=A2

Q2:猫可以吃巧克力吗?

A2: 不可以,巧克力对猫有毒。

问题3=Q3

回答3=A3


Q3: 那狗可以吃巧克力吗?
A3: 狗也不能吃巧克力,对它们有害。

接着问答接龙开启了:具体给大家演示一下,第1轮循环:Q1: “猫是什么颜色的?”A1: “通常是白色、黑色或橘色。” 如下图所示。

第2轮循环:Q2: “猫可以吃巧克力吗?”此时,模型会把Q1+A1+Q2作为新的输入来生成A2。A2: “不可以,巧克力对猫有毒。”如下图所示。

第3轮循环:Q3: “那狗可以吃巧克力吗?”根据Q1+A1+Q2+A2+Q3,模型生成A3。A3: “狗也不能吃巧克力,对它们有害。如下图所示。

前面已经详细介绍了得出A1是一个循环过程。于是这里出现了内外两套循环,是不是很有趣。

C妈:L老师,回答单个问题的词语接龙这种循环方式我能理解,边说边揣摩,思路建立在自己说出来的话中。但是问答接龙这种循环方式我就有点不明白了,把以前问过的问题和解答再输入到新问题中,有啥意义呢?

L:这个意义可大了!你想想,你和一个人聊天,双方都记不住之前聊的内容,万一新的交谈和之前的问答有依赖关系,请问咋办?

C妈:哦,对啊,我怎么没想到这一点。

L:大模型的这种方式有效地模拟了人类持续对话的特点,实现了依赖先前的交流信息来理解和回应新问题的能力,从而让交流的流畅度有了大幅提升。
A爸:对了L老师,无名的失忆问题出在哪,我还是不明白啊?

L其实说穿了很简单,你想想看,如果问答的模式一直继续,那就是Q1+A1+Q2+A2+Q3+A3+Q4+A4....+Qn+An。但是这么一直循环下去,问答所需处理的信息量不断增加,必然会产生性能瓶颈,所以我们必须只保留一定数目的问答,换句话说就是要抛弃旧的问答,比如抛弃Q1A1Q2A2,变成Q3+A3+Q4+A4....+Qn+An。你们现在明白无名为什么失忆了吗?

A爸:哦,我明白了!事情的过程应该是这样的。老智在Q1或Q2等早期问答中给无名做了自我介绍,但是到后期,无名为保障性能不得不将早期问答丢弃掉。这样老智的自我介绍等信息就没了。于是无名就不知道老智是谁了,失忆了!

L:是的,回答正确!此外,无名参加AI盟主争霸赛这事,老智自然是告诉过无名的,同样出于性能保障的原因,无名把自己参赛的信息丢弃了,所以无名便不知道自己手上拿的AI盟主令牌到底是什么。

众人会心一笑,无名的病因至此真相大白!



「 34. 无名有救了!

L:好,了解了大模型工作机制后,大家也就知道了无名为何失忆,那该怎么治疗呢?

A:那信息不要丢弃,一直保留,给无名吃点什么神药,让他处理越来越多的文字信息也没问题。

L:这个神药去哪里找啊?不过小A其实说的也有道理,对应到大语言模型GPT-4倒还是真有神药,那就是配置更多、更先进的服务器、GPU等。只是这需要大量的资金投入,而且并不能保证持续有效啊。

A爸:那怎么办,我也没想好啊。

L大家知道我们说的无名就是特指大语言模型,无名记不住自己是谁,记不住老智是谁,也记不住自己来这里参加什么比赛,其实就是指向大语言模型存在的一个问题,缺乏长期记忆。怎么办?其实也不难,那就把这些信息单独记录下来保存起来存进数据库中,让大语言模型在回答问题时首先调用数据库检索基本信息,再进行回答问题,不就OK了吗?

C妈:数据库?您的意思是GPT-4这类大语言模型,在运行阶段并没有使用数据库?

L:是的,其实道理讲起来也很直白简单,大家知道无论是常用汉语还是常用英文单词,其个数都是非常有限的。GPT-4的原理是依赖内部参数和算法来组合这些有限的汉字和英文单词,最终输出回复结果。也就是说,它是“思考”出答案,非从数据库中找到现成的答案,所以从这个角度来看,GPT-4确实不需要数据库来存储大量的数据。

但是从和一个人的交流来看,对面前的人了解的越多,你就越能有针对性的给予更好的帮助。比如这个人的姓名、性别、国籍、年龄、学历、职业、特长、宗教信仰....

这些信息表面上看可能和交流的问题无关,实际上影响着交流的质量,比如知道你是一个小朋友,就会尽量用通俗易懂的方式来和你交流,让你更易于理解,他了解你的职业就会针对你的职业做更专业的回答。

此外,在使用GPT时有一个很有用的技巧,那就是提示词。比如你在提问时增加一句,”请一步一步思考,有依据,不瞎编” 就能大幅降低GPT在回复时胡言乱语的可能性。比如你在提问时增加一句“请回答的越详细越好”,就会避免有些问题回答的过于简单。比如你在提问时增加一句“请出图时,提供图片的generation id",则可以后续根据这个id进行调整,确保图片风格的一致性,包括为其设定角色,比如说“你是一个人工智能专家”,GPT就会飘飘然起来,真把自己当专家了,然后回答的特别认真....关于提示词有很多很多,也非常经典实用。后续我们可以详细介绍,这里就不再赘述了。这类提示词也是可以保存进数据库中的,这样就不用每次提问的时候都重复这样的提示。

C妈:提示词听起来真有趣,以后您一定得找一个时间和我们说说。

L:好!

A爸:看来,无名有救了!


「 35. Hi AI, Database is all you need

L:是的,我们继续听听两位大师的论道。话说老甲诊断完毕,心中有数了,当即写下治疗方案递给老智,老智定睛一看,赫然写着五个大字“植入数据库”。

老甲:老智啊,要解决无名的问题,Database is all you need 
老智:你这句话怎么听起来好耳熟啊。哦,我想起来了。当初无名在理解句子上下文遇到了麻烦,于是我就去找老谷求助。老谷送给我一个Transformer头盔,并给我留下这么一句话”Attention is all you need” ,后来证明自注意力机制是个好东西,果然有用。今天听你来这么一句“Database is all you need”,看来数据库也应该是一个好东西,无名有救了。
两人哈哈大笑,立刻展开行动。九九八十一天后,治疗和康复训练顺利完成,无名也因此练出了一身的腱子肉。
为验证效果,老智请来十八铜人对无名进行全方位测试,大战七七四十九天后,无名顺利过关。可喜的是,数据库不仅治好了无名失忆的毛病,还顺道解决了无名的一系列其他毛病,这让老智感到惊喜万分。
B:啊,无名还有其他毛病,都是一些啥呢?
L:来,咱们继续听听两位大师对话
老甲:老智啊,无名的问题可不只是失忆这么简单哦。
老智:是啊,除了莫名间歇性失忆外,还有很多问题啊。比如他能为个人提供帮助,却无法为企业提供专业服务,因为企业应用则大多是聚焦在各个专业的领域,一般需要精确的结果,因为这些结果是要直接服务于生产系统,来不得半点含糊。无名虽然博览群书知识渊博,掌握的却是一种通用能力。他不了解这个企业产品的特点,又如何对外提供服务呢?他的回答必须和实际的准确的挂钩,根据顾客的要求给予精确的推荐。
此外,无名在训练和计算时特别消耗资源,这个成本可不低哦,你看我富甲一方,也就训练出一个无名啊,我梦想是要让无名的能力覆盖到每一个人和企业,目前做不到啊。
还有让我比较头疼的是,无名的知识永远停留在训练结束的那一天,如果要得到新知识,则需要从头到尾再训练一次,耗时耗钱不说,实时性依然没法解决啊。

老甲:无名的这些烦恼通过数据库都能解决哦。莫名间歇性失忆好办,无非就是忘记了自己是谁以及把各种要求(提示词)忘光光,这个只要有数据实现了保存用户信息及关键提示词的能力即可。
关于为企业提供服务这事也得靠数据库,数据是企业的机密和命脉,不太可能通过通用能力的训练习得这些知识,所以只要有数据库名来实现存储和访问企业核心数据和关键公开数据的能力即可。有此基础,则智能推荐、超级客服、超级助理等逆天的能力就可以成为现实了。
说到成本,数据库也是可以发挥巨大作用的,围绕着企业应用,无论是内部员工还是外部客户,问的问题相对比较聚焦,也就是说会有大量重复性的提问,这时只要有数据库来保存高频问答及既定问答规则即可。无名发现有人问了类似的问题,只需要直接将之前的答案反馈给这个人,这样就无需调动数以千亿计的参数进行计算来输出答案了,不仅节省了资源,性能还得以大幅提升。
无名的知识在训练结束那一天就固定不变了,这时候要确保数据实时性的话,数据库则是最好的选择之一。因为数据库和应用是解藕的,更新和访问的效率均很高。当然了,公开通用的实时数据一般会通过访问互联网等方式获得。
老智:说的是,真没想到此行收获如此巨大,感谢老甲!这些天我构想了一个大招,如能实现则可以让无名的能力再达到一个新高度,想想都有些迫不及待。我们先就此别过,下次争取让你大开眼界。
老甲:期待,我看好你哦!
老智:老甲,你需要的科研投资经费已经到位了,去查一下吧,我也看好你哦。

L:至此无名求医之路完美收官,两人心情大好。返回途中名心无旁骛只顾着欣赏沿途美景,而此刻老智的心中,却在酝酿着一个更为宏大的计划

A爸:什么计划?

L:暂时保密。对了,老智给无名植入的数据库是两种不同模型数据库的集合体哦,分别是关系模型数据库和向量模型数据库。你们知道这两种数据库的差异吗,知道这两种数据库分别存储了哪些不同的数据吗?

众人纷纷摇头。

L:接下来咱们就细说数据库,内容将非常的有趣、有料,易懂且实用,时候不早了,咱们下回分解。




预告:《超融合数据库》即将出版,关注梁老师公众号,敬请期待。



文章转载自PostgreSQL中文社区,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论