CCCF精选 | 刘云浩：多，则异吗？

中国计算机学会 2023-03-09

147

且不论算力的增长能否跟得上训练的需求，数据存量肯定是跟不上的，那个时候大模型还能一路狂飙跟上OpenAI首席执行官山姆·阿尔特曼(Sam Altman)预言的“新摩尔定律”（即全球的智能总量每隔18个月将翻一番）么？

为什么ChatGPT这么火？上线5天用户量突破100万，2个月后月活用户突破1亿，成为史上用户增长最快的应用。老子说，“无名天地之始，有名万物之母”，德国哲学家海德格尔也说，“人的所作所为俨然是语言的构成者和主宰，而实际上，语言才是人的主人。”ChatGPT能够很好地理解人类的语言并以流畅且符合逻辑的自然语言来反馈，带来很强的“智能感”，这是之前的语言模型没做到的。

ChatGPT展现的惊人能力将大模型的热度推向高峰，大模型强在何处，将走向何方？直觉上，大模型学习海量的知识，对普通人来说可谓无所不知；不仅如此，模型体量大到一定程度后仿佛有了新能力，例如“在上下文中学习”和“思维链”，甚至有人将这种现象称为“突现”：刘易斯(George Henry Lewes)在1875年发表的《生命与心灵的诸问题》中提到，意识有可能是从大脑“突现”出来的产物。1972年，诺贝尔奖得主菲利普·安德森(P. W. Anderson)在Science上发表的文章“多者异也”(More is diﬀerent)中认为“物理系统在每一个复杂度上都会出现全新的性质”，在文章的结尾他引用了马克思量变引起质变的哲学思想。

科学哲学家、美国弗吉尼亚大学教授保罗·汉弗莱斯(Paul Humphreys)在《延长的万物之尺——计算科学、经验主义与科学方法》中说，“哥白尼革命第一次把人类从物理宇宙中心的地位上驱逐出去，而现在，科学又把人类驱离了认识论宇宙的中心。”AI显然还没有具备完整的人类的认知推理能力，但很可能会延展人类的认知边界。

为了让ChatGPT不断进化，OpenAI通过开放给公众的方式不断收集用户输入。这里用到的思想类似于群智感知的计算范式，应用这一计算范式，普罗大众以及可被感知的万事万物都将成为大模型不断进化的数据源泉。为什么群智感知数据如此重要？因为全世界的现有数据已经快要耗尽了。根据Epoch等单位的研究，全球高质量文本数据的总存量在4.6万亿~17.2万亿个token之间，而代表性的大模型，例如DeepMind的Chinchilla，是在1.4万亿个token上训练的。且不论算力的增长能否跟得上训练的需求，数据存量肯定是跟不上的，那个时候大模型还能一路狂飙跟上OpenAI首席执行官山姆·阿尔特曼(Sam Altman)预言的“新摩尔定律”（即全球的智能总量每隔18个月将翻一番）么？

如果说大模型是“连接主义”的胜利，我们也不能忽视自人工智能诞生之初就存在的另一学派：“符号主义”。相比于当今以Transformer为基础的大语言模型，源于符号主义的知识图谱具备更好的可解释性。本期专题中，来自同济大学、阿里巴巴、南京大学、浙江大学、蚂蚁集团、达而观、恒生电子的学者们，就知识图谱的构建、开放共享以及在金融、商业等领域的应用进行了探讨。

不管是连接主义、符号主义，还是两者的融合，AI的进化都需要源源不断的高质量数据，在即将到来的人工智能时代，“群智”将可能成为新的成功密码，正所谓“积力之所举，则无不胜也；众智之所为，则无不成也”。