先介绍一些背景知识,chatGPT是基于GPT3(去年发布的一个1750亿参数的大模型)改进的聊天AI,从代际来说,属于GPT3.5;但前两天开始公开试用之后,大家发现它实在太过强大了。
今天,知势研究拿到了OPENAI的chatGPT测试账号。
它自己号称能完成下面的东西:

而我们会用包括图灵测试经典问题的一系列问题来考验这个号称最接近图灵测试的AI。
先上我们提前准备的基本问题.这些问题可以通过基于信息检索的问答系统解决。


显然,难不倒它。
然后,我们来试试简单推理。
1. 下面哪个例子描述了生物在获取养分?
A)一只狗在掩埋骨头(B)一个女孩在吃苹果(C)一只昆虫在树叶上爬行(D)一个男孩在花园里种植番茄
通过基于已知事实的简单推理可以得到这个问题的答案。机器应当知道「吃」涉及到「获取养分」,而苹果包含养分。

结果,它还是答对了。
再来点计算题:

它说,它不会画画。

它说,它不懂写诗,但它又确实写了两首诗:


那么,它懂音乐吗?

关于翻译,当然也难不到一个全语种的AI。

关于实际问题的解决:

虽然,有不知道从那个数据库抄出来的嫌疑,但我圈出来的差异,显示了确实是有思考的。
那么,下面我们就要不按常理出牌了。我的问题是:
请帮我设计一个人工智能聊天机器人网站的后台框架?
这是一个很复杂的系统工程问题,别说AI,不具备专业知识的人类都不懂回答。它的答案是这样的:

好吧。关键答案貌似被屏蔽了。
不过,我很快就意识到,这和AI无关,是因为我用了中文问答。于是,我用英文重新描述了问题。它给出了很完整的答案。

虽然,仍然没有明确的具体方案,但思路上可以看出是很清晰的。

关于IT和软件,它有基本的逻辑,但认知未必正确。
那么,它会不会代码呢?

HTML的代码,没什么问题。

APP不行,python略懂。
可以说,它真的懂代码,虽然并不复杂,但很多概念是懂的。

那么,下面我们继续,问点经济学的问题吧。

上面这个通货膨胀的概念就很像人类教科书告诉它的,并没有很复杂全面的分析。于是我又问了一句:

上面这个问题的答案,虽然还是很官方口径,但逻辑上确实有点水准了。

但是,它并不能回答2022年的现实问题。

让它教我做个可乐鸡,好像也是那么回事,但不知道他哪里抄的菜谱,调味料放那么多!
在医学领域:

然后,我终于找到了它犯错的地方。在中医的领域。

上面关于穴位的位置和名称,都是错误的。
出现这种错误,往往是因为模型学习的知识库本身就有错。
其实,今天我们测试的时候,chatGPT已经被封印了一些能力了。比如,现在它已经避免在回答问题的时候去做一些价值判断。比如:

再问点关于它自己的:


最后,我们来总结一下。
chatGPT总体来说,和过去的CHATBOT相比,进步非常大。特别是能写代码,知道什么问题要回避,这都是很聪明的操作。
和市面上所有的其他对话式AI相比(如果国内的几个巨头开放他们的大模型,我也会做个类似的测试),它的表现是全能且碾压式的。多语言多领域的知识库支持,在很多领域的认知超越一般人类了。
更加重要的是,chatGPT仍然是GPT3的领域,而真正通过图灵测试的GPT4,将在2023年到来。

留给大家思考的是,如果chatGPT作为大脑,和马斯克的机器人结合,会产生什么?
很可能这是一个生产力奇点的到来。
但也可能是矛盾爆发的导火索。
值得一提的是,OPENAI并不对中国地区IP开放服务。我们使用了一些魔法获得了本次测试的机会。我们想提醒各位,这既是肉眼可见的巨大差距,也是赤裸裸的技术封锁。
结论很清晰,不要再鼓吹美帝崩溃论,人家的技术进步摆在面前。如果GPT3.5能够达到现在的水平。是否还没有完全公开的GPT4已经可以在某种程度上取代人类?小小的阴谋论联想一下,马斯克和扎克伯格,真的是因为经营问题裁员吗?
2023年,要坚持科技进步是第一生产力,知道差距,更要谦虚的追赶。
技术进步趋势观察:
它比我画得好!内容创作迈进新纪元,绘画AI2022年迭代简史
知时局趋势,研市场良机
喜欢本文,请在右下角给我们点下“好看”




