暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

GenAI+大数据引爆2024年狂潮,让数据创造无限可能

326

2023年发生了一件意想不到的事情:ChatGPT风靡全球,让世界第一次了解了生成式AI。


ChatGPT的巨大贡献就是非常擅长理解问题,非常快速地搜索大量公开可用的数据,并在提供答案时模仿人类的语音模式。


现在GenAI已经开始商业化,公司正在竞相将其货币化。一些市场研究机构预言GenAI的市场规模达到千亿美元。


毫不讳言,2024年GenAI+大数据将从根本上改变商业的运作方式,将影响公司的增加收入、开展日常运营、吸引客户和员工、建立新的商业模式等。



技术



1.语言模型参数小型化:只需要原来1/10的数据,就可以获得相同的性能

2024年的语言大模型将具有与现在相同的功能,但参数数量仅为十分之一。语言大模型也只需要十分之一的数据就可以获得相同的性能,从而降低了实际使用的标准。


人工智能和边缘计算的融合有望为许多行业带来变革。模型量化的快速创新步伐正在发挥关键作用,该技术通过提高可移植性和减小模型大小来加快计算速度。


同时,模型量化model quantization弥合了边缘设备的计算限制与对高精度模型和实时智能应用的需求之间的差距


模型量化降低了模型参数的数值精度(例如,从 32 位浮点数到 8 位整数),使模型轻量级,适合部署在资源受限的设备上,如手机、边缘设备和嵌入式系统等。


在模型量化领域,有三种技术已经成为潜在的游戏规则改变者,即GPTQ、LoRA和QLoRA


·GPTQ涉及在训练模型后对其进行压缩,非常适合在内存有限的环境中部署模型。


·LoRA涉及微调用于推理的大型预训练模型。具体来说,它微调了构成预训练模型大型矩阵的较小矩阵(称为LoRA 适配器)。


·QLoRA 是一种内存效率更高的选项,它利用GPU内存进行预训练模型。LoRA 和 QLoRA 在使模型适应计算资源有限的新任务或数据集时特别有用。


从这些方法中进行选择很大程度上取决于项目的独特要求,项目是否处于微调阶段或部署阶段,以及它是否具有可供使用的计算资源。通过使用这些量化技术,开发人员可以有效地将AI带到边缘,在性能和效率之间取得平衡,这对于广泛的应用至关重要。


2.从基于云的GenAI迅速转变为本地Gen AI

到 2024 年,从基于云的GenAI 将迅速转变为本地Gen AI。


这一转变是由于普通创业公司没有能力投入大量资金到云服务商,并且运营自己的云服务几乎是不可能的。然而,随着本地生成式AI的创新,这种情况正在迅速改变。


当GenAI转移到本地环境时,用户将能够拥有完整的RAG(Retrieve、Analyze、Generate)堆栈,并通过访问进行控制。这意味着企业不必以任何方式将自己的专有数据公之于众,从而提高数据的安全性和隐私性。


随着我们从集中的、基于API的语言模型(LLM)转向本地LLM,GenAI将像野火一样迅速被采用。本地部署将提供更快的访问速度、更高的性能和更好的控制权,尤其是对于对数据安全和隐私保护要求较高的企业。


然而,这种去中心化的本地部署也带来了一些不利影响,如引入了恶意行为者的概念。在去中心化的环境中,存在着一些可能会破坏系统或利用其缺陷的不良行为者。因此,在推动本地GenAI的发展的同时,也需要重视安全性和防御措施,以保护系统和数据免受潜在的不当行为的影响。


总之,到2024年,从基于云的GenAI将向本地部署转变,带来更高的数据安全性、性能和控制权。然而,我们也需要谨慎处理本地部署所带来的安全风险,并采取适当的防御措施,确保系统和数据的安全。


3.从以模型为中心到以数据为中心,AI范式发生转变

以往的AI方法常常关注建立和优化模型,而忽视了数据质量的重要性。然而,随着人工智能模型的发展和成熟,我们开始意识到模型的输出结果与输入数据的质量密切相关。


以数据为中心的人工智能范式意味着将重心放在使模型更接近数据。这意味着组织需要确保数据的准确性、完整性和时效性。基于最新数据的模型将能够提供更准确、更具预测性的体验,从而改善模型的输出结果。此外,以数据为中心的方法也能够减少对虚假幻觉的依赖,因为基于真实数据的模型更接近真实世界。


同时,到2024年,AI和机器学习将在解决非结构化数据难题方面发挥关键作用。专家们能够利用AI和机器学习的力量从非结构化数据中提取洞见,如社交媒体帖子、视频和客户评论等。这些非结构化数据通常具有复杂的格式和语义,传统的分析方法很难有效地提取有用的信息。而借助AI和机器学习的技术,我们可以自动化地从非结构化数据中发现隐藏在其中的知识和见解,从而为组织带来更高的价值。


总之,AI范式从以模型为中心转向以数据为中心,使得数据的质量和价值成为AI应用中的关键因素。以数据为中心的方法将带来更准确、更具预测性的模型输出,同时也能充分挖掘非结构化数据中的见解和价值。


4.小公司争先恐后地寻求训练和部署GenAI应用,将注意力转向功能较弱的芯片

小公司将争先恐后地寻求训练和部署GenAI 应用所需的计算能力,将学会在没有科技巨头代言的最新、最强大的 GPU 的情况下生存


随着大型科技公司在强大的GPU上占据主导地位,越来越多的组织将在2024年将注意力转向功能较弱的芯片。那些寻求替代方案的人将通过使用强度较低的数据集要求,使用更有效的技术(如低秩适应(LoRA))来训练大型语言模型,以及并行化工作负载,这样企业可能部署了100,000个较小芯片的集群来完成10,000个英伟达H100的工作。


分布式和无需许可的网络的兴起将使组织能够利用这些较小芯片的强大功能,并提高所有功能芯片的整体利用率,这些芯片数量丰富,而且经常处于闲置状态。


这将使小型公司和初创公司能够创新并为人工智能热潮做出真正的贡献,从而减轻人们对Microsoft、谷歌和Meta更强大、更高效等将主导技术转型的担忧。

5.开源自然语言大模型迈向更强大、更高效

为了促进开源LLM 的研究,Meta发布了Llama 系列模型。此后,基于Llama 的开源模型开始井喷式出现。


目前市场上存在多个开源的自然语言处理模型,如由OpenAI开发,采用了Transformer架构的预训练语言模型GPT-2;由Google开发,采用Transformer架构的预训练语言模型BERT广泛应用于各种NLP任务;由Facebook AI开发,基于BERT的改进版本RoBERTa,通过更长时间和更大规模的数据进行预训练,取得了更好的效果等。


一个有代表性的研究方向是使用指令数据对Llama 进行微调,包括Alpaca、Vicuna、Lima 和 WizardLM 等。研究者们还探索了基于Llama的智能体、逻辑推理和长上下文建模能力。此外,与基于Llama开发LLM不同,还有许多工作致力于从零开始训练 LLM,例如 MPT、Falcon、XGen、Phi、Baichuan、Mistral、Grok 和 Yi 等。


我们相信,发更强大、更高效的开源 LLM 将是一个非常有前途的未来方向


开源自然语言大模型的发展方向包括模型容量和规模的增加、模型的细粒度和个性化、多模态和跨模态能力、实时和增量学习,以及更好的可解释性和可控性。




应用



6.更多企业将GenAI功能嵌入到内外部应用中

在2024年LLM 和其他基础模型已经变得更容易训练和微调。企业将开始将GenAI嵌入到更多的应用程序中。


到2026年,超过80%的企业将使用生成式人工智能(GenAI)应用程序编程接口(API)或模型,在生产环境中部署支持GenAI的应用,而2023年这一比例还不到5%。


Gartner杰出副总裁分析师Arun Chandrasekaran表示:“生成式AI已成为最高管理层的首要任务,并引发了基础模型之外的新工具的巨大创新。许多行业对生成式人工智能的需求正在增加,如医疗保健、生命科学、法律、金融服务和公共部门。”


2023年Gartner将生成式AI炒作周期确定会越来越多地嵌入到许多企业应用中的关键技术。具体而言,预计在十年内将对组织产生巨大影响的三项创新包括支持GenAI的应用、基础模型以及AI信任、风险和安全管理(AI TRiSM)。


7.在软件中集成GenAI,以增强软件的竞争力

在2023年包括微软、甲骨文、SAP、AWS、IBM等各类软件公司在其产品中集成大模型,为软件增加智能助手2024年,没有集成GenAI的软件,其竞争力将受到影响。同时软件公司将在 2024 年找到采用 GenAI 的新方法。


在软件中增加智能助手是一个具有广泛应用和发展前景的方向。智能助手可以通过自然语言处理和机器学习等技术,与用户进行交互,提供有针对性的服务和帮助。


这项技术将不再仅仅是一种节省成本的工具,而是公司运营的一个基本方面,其好处包括彻底改变供应链流程和为客户提供量身定制的产品。


目前,组织正在从其他部门的预算中资助生成式人工智能,尤其是来自数据科学和分析。我们将看到组织分配资金的方式发生转变,生成式人工智能有自己的预算,并指定一个领导者来监督整合。然而,由于人工智能确实需要训练和定制才能达到其最大能力,因此全面整合将在几年内逐步实现,而不仅仅是在2024年。


英伟达首席执行官黄仁勋上周宣布,生成式人工智能“是一种新的计算平台,就像PC、互联网、移动和云一样。几乎每个主要的软件供应商都发布了某种关于LLM的公告,最常见的是声明与LLM的集成点。


有些人已经超越了这一点,并宣称我们已经达到了人工智能的“临界点”。数以百万计的工作将被自动化,这要归功于LLM吸收信息并生成正确答案的能力。


8.大模型将改变程序员的工作方式和人员结构

大模型对程序员的影响包括两个方面:


一个方面,人工智能将迫使组织重新思考如何培训和发展初级工程师,以及改变这些工程师的职业规划。


目前大多数编程任务都是在重复工作,根本不需要大模型有太高的推理水平,大模型很适合那些“用完就扔”的程序。


初级程序员将被大模型所取代,不管是从成本、效率,还是质量上,初级程序员都将被淘汰


另一方面,自动化辅助编程一定会成为开发者的标配工具,生成式 AI 只会让已经很强的程序员变得更强


很多企业已经推出了集成了开源自然语言大模型(LLM)的编程助手,以提供更智能和便捷的编程体验。微软的Coding Assistant和AWS的CodeGuru等就是其中的代表。


集成了LLM的编程助手为开发者提供了更智能和高效的编程辅助功能,有助于提高开发效率、减少错误,并提供更好的文档和知识查询支持。


CodeOps是一种使用完全拥有且可重用的代码快速构建软件产品的新兴方法。它利用生成式人工智能和模块化编码概念来加快开发过程,增强创新,并最终推动更快的数字产品开发。CodeOps 还可以轻松适应混合人机开发的新兴趋势。CodeOps 很容易集成由单个开发人员生成的“Copilot”式AI代码。



9.GenAI帮助数据库管理员简化数据库的开发和部署,同时数据库加快大模型的训练

根据 Oracle 云业务组的调查,数据库管理员(DBA)平均将 90% 的时间花在维护任务上。人工智能正在被添加到数据库管理中,作为大大降低维护负担的一种方式。当与数据库及其底层基础设施很好地集成时,AI 可以帮助 DBA 发现存储和内存瓶颈以及其他阻碍数据库操作的问题


GenAI 还可以帮助数据库设计人员简化数据库的开发和部署。语言模型扫描、汇总和突出显示数据语料库的能力可能使其成为数据库开发中的主要生产力工具。


诚然,人工智能已经用于数据库操作的许多方面,从查询优化到索引创建、自动调优、供应、修补等,Oracle自治数据库是完全自动驾驶自动化的典范。


数据库技术应用于支持人工智能应用的发展则是另一大发展趋势。向量数据库可以提供高效的向量检索和相似度计算功能,通过索引和高效的查询算法,加速GenAI中的向量数据处理,提高模型的训练和推理速度。


在GenAI中,图数据常常用于表示复杂的关系和交互,如社交网络、知识图谱等。图数据库提供了灵活的数据模型和查询语言,可以方便地存储和处理图数据,并支持复杂的图查询和图算法。在GenAI中,图数据库可以用于存储和管理训练数据和模型参数,进行图数据的迭代和更新,以及执行图算法和图神经网络模型等。


综合利用向量数据库和图数据库,可以实现更高效、灵活和智能化的GenAI应用。

10.在2024年的网络安全方面,人工智能将无处不在

如果你还没有听说过人工智能在网络安全方面的潜力,那么2024年,人工智能将成为一系列网络安全讨论的前沿和中心。


攻击者和防御者都将加强对人工智能特别是GenAI的使用。坏人将更多地使用它来生成恶意软件、自动攻击并加强社会工程活动的有效性。


黑客一直在使用 ChatGPT 来编写更有效的恶意软件。这些大型语言模型(LLM)背后的数据抓取实践也让隐私专家感到担忧。在线虚假信息、深度伪造和在线诈骗也变得越来越复杂,这一切都要归功于人工智能工具。


好人将通过将机器学习(ML)算法、自然语言处理(NLP)和其他基于AI的工具纳入他们的网络安全战略来反击。


边缘设备将成为2024年的主要网络安全战场,并将为黑客组织提供展示其能力的机会。


我们还将更多地了解人工智能在解决持续存在的网络安全人才缺口方面可以发挥的作用,人工智能驱动的系统将接管安全运营中心越来越多的日常运营。

11.美国95%的消费者将成为深度伪造的受害者

管生成式人工智能正在重新构想我们与机器的交互方式,但在人工智能和语言模型广泛采用的最初几年,有一些迫在眉睫的问题将特别具有挑战性。深度伪造就是其中一个。


到2024年底,美国95%的消费者将成为深度伪造的受害者。深度伪造已经变得非常复杂,几乎不可能用肉眼检测到,现在生成式人工智能使它们的创建比以往任何时候都更容易。错误信息已经像野火一样蔓延,随着即将到来的选举,深度伪造只会变得更加复杂。到 2024 年底,绝大多数美国消费者都将接触到深度伪造,无论他们是否知道它是合成媒体。


在与深度伪造技术不断发展的斗争中,各行各业越来越多地转向复杂的技术库来对抗操纵内容的扩散。从内容真实性计划到隐形水印技术、算法检测工具、协作项目和平台政策变化,打击深度伪造的斗争正变得多方面和动态。


Microsoft 更进一步,宣布推出“内容凭证即服务”,利用 C2PA 数字水印凭证来帮助候选人和竞选活动保持对其内容的控制。


Meta 推出了Stable Signature,这是一种隐形水印技术,旨在区分由开源生成式 AI 模型创建的内容。这种肉眼无法检测到但可以通过算法追踪的看不见的水印,有助于识别纵的图像。Google DeepMind也加入了SynthID 的竞争,允许用户将数字水印直接嵌入到 AI 生成的图像或音频中。


参考资料:


·https://www.datanami.com/2023/12/20/2024-genai-predictions-part-one/


·https://www.dbta.com/Editorial/News-Flashes/Experts-Agree-AI-Will-Continue-to-Shake-Up-How-Business-Gets-Done-in-2024-162001.aspx


·https://mpost.io/2024-tech-trends-industry-leaders-embrace-ai-to-counter-deepfake-threats/


·https://www.infoworld.com/article/3711703/codeops-using-llms-and-systemic-code-reuse-to-accelerate-development.html


·https://www.infoworld.com/article/3711660/model-quantization-and-the-dawn-of-edge-ai.html


·https://www.spglobal.com/marketintelligence/en/news-insights/blog/infographic-the-big-picture-2024-generative-ai-outlook


相关文章


·2024玩转大数据:2024年大数据之巅:揭秘企业如何跨越9大挑战,引领数据技术革命


·2024玩转大数据:大数据未来已来:2024年18大看点全解析,点亮数字世界新航标!


·2024玩转大数据:湖仓一体、SQL替代、NLP自助服务、数据治理、超个性化数据应用··· 2024年12大数据管理与分析的独门绝技预言


·2024玩转大数据:将非结构化信息转换为向量将司空见惯,哪些说向量数据库即将过时人可能会错过几个亿


2024



小年纳福

XIAO/NIAN/NA/FU




文章转载自Hadoop大数据应用,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论