
推出对话机器人ChatGPT上线五天就吸引了超过100万的用户,推出两个月后活跃用户预计达到1亿,成为史上增长最快的消费者应用。
超人气的ChatGPT让搜索引擎巨头们坐不住了,也让不少AI公司躁动不已。
谷歌首席执行官皮查伊(Sundar Pichai)2月6日亲自下场发布公开信,推出名为“Bard”的AI聊天机器人服务,迎战老对手微软。
而投资了人工智能公司OpenAI的微软隔日宣布推出全新的人工智能必应搜索引擎和 Edge 浏览器。同时微软计划将ChatGPT集成到更多的产品中。
而全球最大的中文搜索引擎百度也明确即将推出名为“文心一言”,英文名ERNIE Bot的类似与ChatGPT对话式AI应用,将在3月完成内测,面向公众开放。
在火爆的对话式AI应用背后,对数据的收集以及由此引发的隐私保护将会吞噬这一蓬勃发展的应用。


1.ChatGPT爆火背后的大模型
ChatGPT是什么?看看它自己的描述:ChatGPT是“由OpenAI开发的基于GPT(生成预训练转换器)语言模型的AI驱动的聊天机器人。它使用深度学习技术,以对话方式对文本输入生成类似人类的响应。
OpenAI由Elon Musk和Sam Altman于2015年共同创立,并得到了知名投资者的支持,尤其是微软。
ChatGPT技惊四座,能够出色地回答人类提出的各种问题,其强大的理解自然语言的能力,使得特斯拉创始人马斯克不禁感慨:“ChatGPT好到吓人,我们离强大到危险的AI不远了。”
ChatGPT横空出世,掀起了与人工智能对话的热潮。这款聊天机器人能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流。
能有如此表现源于其背后超大规模机器学习模型。ChatGPT由大型语言模型(LLM)提供支持,意味着它被编程为理解人类语言并根据大量数据语料库生成响应。
而ChatGPT的LLM被称为GPT-3.5,是OpenAI的GPT-3语言模型的升级版。GPT-175 拥有高达3亿个参数,是迄今为止参数最多、最强大的语言处理AI模型之一。
ChatGPT之所以如此令人印象深刻,是因为它能够产生类似人类的响应,这在很大程度上要归功于它所训练的大量数据。令人兴奋的是,反应越来越像人类,所以你所看到的是我们以前认为计算机无法做到的事情。
ChatGPT的另一个特点在于它能够在线程中记录用户早期消息的上下文,并使用它来在对话后期形成响应。
另外,没有一个生成式人工智能应用程序能够完全实现 ChatGPT 所拥有的那种影响力和病毒式传播。


2.“中国版ChatGPT”来势汹汹
专家认为,ChatGPT给行业验证了一个“GPT大模型+大数据”在增强学习下显著提高意图理解、生成质量和对话管理的技术路线,反超 BERT、T5 等大模型,虽然还有不少局限性,但突破性还是比较显著的。
其实在大模型训练上,中国有很多成熟的方案,腾讯、阿里、华为、浪潮等巨头,360、云知声等AI企业和研究机构也都在加大投入。
百度即将推出自己ChatGPT 版本,名为Ernie Bot。经百度确认,百度类ChatGPT项目名字确定为“文心一言”,英文名ERNIE Bot,预计3月份完成内测,面向公众开放,目前正在做上线前的冲刺。
在研发资金上,百度创始人李彦宏多次在公开发言里提到:“十年累计投入超过1000亿,其中核心研发的投入占比,连续多个季度超过了20%。”他在2017年左右就说过:“百度虽然收入不是第一,但研发占比绝对第一。”
百度在人工智能四层架构中,有全栈布局。包括底层的芯片、深度学习框架、大模型以及最上层的搜索等应用。文心一言,位于模型层。
阿里内测中的达摩院版ChatGPT,也被提前曝光。据透露,新产品可实现的功能包括知识问答、AI绘画、代码生成、小说续写、文案撰写、写诗作词等。
有人总结说,不仅ChatGPT具备的能力它都能实现,而且多了“AI绘画”这项功能。能取得这样的多任务、跨模态效果,背后本质上离不开阿里通义大模型的能力。
云知声以Atlas大规模机器学习超算平台为支撑,目前基于Transformer/BERT+GAN/GPT2 等技术架构和大规模行业数据,打造了“感知-认知-生成”的全栈智能交互和知识图谱技术体系,在AIGC方面主要包括个性化TTS、歌唱和声像合成等,ChatGPT方案也在今年技术升级规划中。
据悉,AIGC技术主要整合到多模态智能交互、行业数据与知识管理等整体方案中,应用到智能家电/车载/轨交、智慧酒店/社区、智慧医疗/养老等领域中。
三六零也拟推类似ChatGPT产品。在互动平台表示,三六零表示其人工智能研究院从2020年开始一直在包括类ChatGPT技术在内的AIGC技术上有持续性的投入,但截至目前仅作为内部业务自用的生产力工具使用,且投资规模及技术水平与当前的ChatGPT 3相比还有较大差距,各项技术指标只能做到略强于ChatGPT 2。由于训练数据源及应用方向的原因,在中文环境下的实际效果强于ChatGPT 2。
三六零也计划尽快推出类ChatGPT技术的demo版产品。AIGC技术除了在搜索引擎的应用之外,还可以辅助数字安全能力的提升。


3.ChatGPT隐私威胁是真实的,我们迟到了?
虽然OpenAI广受好评的对话聊天机器人因其在不同领域的广泛使用而广为人知,但很少有人谈论它是否能避免数据收集,并确保隐私。
考虑到像ChatGPT这样面向消费者的产品要变得更好,就需要不断收集用户数据来训练其模型。这是一个永无止境的循环,新数据将训练模型,以提供更好的人工智能,吸引更多用户,进而再次提供新数据。
业务专家认为,ChatGPT令数据安全保护特别是隐私保护雪上加霜。而ChatGPT的数据收集方法显然会让一些商业公司感到害怕。
现在,有些机构开始禁止使用ChatGPT。
亚马逊向其员工发出警告,禁止与ChatGPT共享公司信息。亚马逊公司的一名律师警告员工不要与AI聊天机器人共享机密信息或代码。这项预防措施是在ChatGPT生成复制亚马逊内部数据的响应之后采取的。
正如最近的一份报告所显示的那样,聊天机器人能够正确回答来自亚马逊的面试问题。它能够回答一些只有公司招聘团队知道的独家问题。不久之后,ChatGPT也能够重现各个组织普遍提出的技术问题。
另外,虽然ChatGPT的超人能力震惊了世界,但也引发了教育界对聊天机器人滥用的担忧。
OpenAI的ChatGPT已经毫无疑问地证明,它可以写论文,写项目总结,编写应用代码,构建和设计网站,甚至可以轻松通过医学和MBA考试。
这些功能让世界感到惊震惊,也引发了教育界对聊天机器人被学生滥用的担忧。正是这种恐惧促使许多组织和平台禁止使用ChatGPT。
今年早些时候,美国纽约市教育部开始阻止在学校设备和网络上访问聊天机器人,理由是对学生学习的负面影响,以及对内容的安全性和准确性的担忧。
同样,第40届机器学习国际会议(ICML)禁止提交包含从ChatGPT等大规模语言模型(LLM)生成的文本。这些担忧也推动了对能够检测人工智能生成内容的工具的需求和市场。
普林斯顿大学学生Edward Tian与开发GPTZero(一款可以快速有效地检测论文是ChatGPT还是人类撰写的应用程序)的Sreejan Kumar最近宣布推出新产品GPTZeroX,用来检测作品是否是ChatGPT完成的。
这样的工具正在越来越多,旨在使教育工作者能够就人工智能做出明智的决定,重建对书面工作的信任,并允许他们将人工智能整合到学习中。
在这种情况下,所有组织都有必要发布其使用指南。因此,与合理使用人工智能相关的政策变得更加重要。而且,不仅是企业,监管机构也要进行干预并建立构建安全人工智能系统的标准。
同样,目前的法规对这样的AI应用也没有涉及。欧盟人工智能法案(AIA)是同类法案中的首创,将人工智能应用程序分为三个风险组:
第一类包括构成“不可接受的风险”并因此被禁止的人工智能系统,如政府运营的社会评分系统。
第二组包括“高风险”人工智能系统,如求职者的简历扫描工具,这些系统受特定法律要求的约束。
第三类包括既不高风险也不被禁止且基本上不受监管的人工智能系统。
目前,这些法律的分类和执行似乎含糊不清,没有最终原因。到目前为止,无论是GDPR、AIA,还是印度的DPDP(数字个人数据保护)法案,政策主要集中在保护消费者的利益上。然而,鉴于人工智能系统对企业造成的伤害,监管机构必须制定标准,规定如何创建人工智能系统。
目前缺乏有关如何创建始终遵循既定原则的最先进的AI系统的知识。此外,也缺乏测试人工智能系统是否遵守这些原则的方法。虽然更简单的人工智能技术可能更易于管理,但人工智能的最新进展,特别是神经网络,在很大程度上仍然是神秘的。
“担心大型科技公司目前正在为广告和用户体验目的而收集数据。”随着人工智能和聊天机器人的进步,收集的数据量预计将急剧增加,从而引发对隐私和正确使用个人信息的更多担忧。


参考资料:
·https://analyticsindiamag.com/top-7-tools-for-detecting-ai-generated-content/
·https://analyticsindiamag.com/chatgpt-privacy-threat-is-real-and-we-are-late/
·https://www.cnbc.com/2023/02/08/what-is-chatgpt-viral-ai-chatbot-at-heart-of-microsoft-google-fight.html
·https://mp.weixin.qq.com/s/bVCVf0qkRpn8f8l2oxpTZA
·https://mp.weixin.qq.com/s/xQmX9EnrKLAUxsEoCZXJVg


浪漫情人节
大数据应用,从现在开始

END




