暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

从零开始:大模型简介与应用|实战系列

207


实战系列

相信有不少伙伴对大模型有所耳闻,但也是一知半解,也许你知道很重要可以为自己的工作提供帮助但是不知道该如何结合,又或是转行的过程中并不知道从何入手,网上的教程要么不包含具体的操作步骤要么需要好几篇合在一起才能弄清。我们接下来会每周更新一篇文章用尽可能通俗易懂的语言来介绍大模型相关的技术以及应用,并且还有保姆级的实战教程,从0开始教你怎么操作。


今天先用一篇文章简单导入,介绍一下大模型是什么,如何实现的,以及可以用在什么地方,比较适合小小白阅读哦。


大模型是什么

说到大型语言模型 LLM(large language model),大家最熟悉的应该就是 chatGPT 用到的 GPT 系列。LLM 又被统称为 foundation models (基石模型)是指由神经网络组成的语言模型,通常包含数十亿个或更多的参数,是使用自监督学习或半监督学习来训练大量未标记的文本所得。可以捕捉更复杂的模式和关系,从而提供更准确和强大的预测和模式识别能力,有助于解决许多领域的挑战,包括自然语言处理、计算机视觉、语音识别等。


简单点说大模型就是用大量级数据进行训练,拥有大规模参数,能够处理复杂任务和大规模数据的模型。


工作原理

预训练与微调

由于传统的深度学习在自然语言处理 NLP(Natural Language Processing)领域的表现不佳,预训练模型的思想应运而生。在2018年 Goolge Brain 提出了 BERT 模型,作为第一个广泛应用的基于 Transformer 架构的预训练模型,BERT与大多数预训练模型一样,它通过在大规模无标签的文本数据上进行预训练,学习到丰富的语言知识,并在特定任务上进行微调,取得了极大的成功,预训练模型开始真正的兴起,慢慢成为了 NLP 领域的主流方法之一。


大模型正是采用了预训练模型的方法,通过在大规模未标记数据上进行预训练,通过自监督学习方法来学习语言模式和语义关系,然后在特定任务上进行微调,使其适应具体的应用领域。下面以自然语言处理为例一起了解一下大模型的工作原理。



工作原理如上图所示,概括一下就是将文本生成任务分割成一个个单位(Token)输入到预设好的训练模型中,然后将这些单元转化为特征向量映射到向量空间中(Embedding);经过由不同的块(Block)构成的神经网络,从而计算出每个单位的分布概率(Prob),并将概率最大即最符合可能结果的 Token 输出,之后生成任务所需的单词或文本(Decoding/Generating);最后原先输入的 Token 以及输出的 Token 一起输入模型进行自监督训练,对训练模型输出的结果进行验证与微调。


无论是处理语言、文本、图像或是视频,工作原理都大致如此,只不过会根据数据的形式选择对应的分割方式和训练模型。


光看图可能会觉得好多名词一知半解,下面就来解释一下图中的名词都是什么意思。



名词解释

Token(标记)表示对文本进行分割和标记后的最小单位;在NLP任务中,将文本划分成标记是为了便于下一步Embedding 将自然语言转化成计算机能够处理和理解的数字。标记可以是单词、数字、标点符号、特殊符号或其他更小的单元,如字符或子词。



Embedding(嵌入表示将离散的符号或标记(如单词、字符、子词等)映射到连续向量空间的过程;嵌入技术的目标是通过这种映射将文本中的符号转换成数值化的表示,使得计算机可以更好地理解和处理文本。



Block(块)表示模型中的一个基本组成单元或层;例如,在Transformer模型中,每个块由多头自注意力层和前馈神经网络层组成。这些块在模型中堆叠多次,形成多层的深度神经网络。每个块负责不同的特征提取和表示学习,是构建预训练模型的基本组件。



Prob(概率)表示生成文本的概率;在预训练模型中,生成的文本序列是按照一定的概率分布来产生的。模型会为每个单词或标记生成一个概率分布,表示该位置应该是哪个单词或标记的概率。在解码过程中,根据概率分布,选择概率最高的单词或标记作为下一个生成的内容。



Decoding(解码)在预训练模型中,是指根据输入的部分文本或标记,使用模型的参数和语言知识来生成下一个单词或标记的过程。解码是预训练模型完成文本生成的重要步骤。在文本生成任务中,解码器通常根据已生成的部分文本和模型的上下文理解能力,逐步生成下一个单词或标记,以生成完整的文本序列。


Generating(生成)是指利用预训练模型进行文本生成任务,通过给定一些初始文本或标记,让模型根据其语言知识和上下文理解能力逐步生成连贯的文本序列。生成可以用于各种文本生成任务,如文本摘要、对话生成、翻译等。



大模型能做什么

传统应用场景



大模型和以往的 AI 不同,以往的 AI 往往是擅长专门处理某个领域的的内容,而现在的大模型基本在向着通用人工智能 AGI(Artificial General Intelligence)的方向发展,往往是一个模型能够处理多种数据类型,完成不同方向的任务。


1.自然语言处理:大模型能够更好地理解和生成自然语言文本,从而应用于机器翻译、文本摘要、问答系统等领域。


2.图像识别与处理:利用大模型,我们可以实现准确和高效的图像分类、目标检测、图像生成等任务,广泛应用于计算机视觉领域。


3.推荐系统:大模型能够通过学习用户行为模式来提供个性化的推荐,帮助用户发现和获取感兴趣的信息和产品。


4.医疗领域:大模型在医学图像分析、疾病预测和诊断支持等方面具有巨大潜力,可以提供更准确和可靠的医疗服务。


5.智能助手:大模型能够提供更自然、智能和贴近人类的对话交互能力,使得智能助手更加智能化和个性化。


6.虚拟现实与增强现实:通过结合大模型和计算机图形学技术,能够实现更逼真和沉浸式的虚拟现实和增强现实体验。


7.自动驾驶:大模型在感知、决策和控制等方面的应用,可以提升自动驾驶系统的安全性和智能化水平。


8.金融风险预测:通过利用大模型分析金融市场的大规模数据和模式,可以提供更精准和实时的金融风险预测。



新型应用

1.生成游戏NPC角色

使用 LLM 来构建游戏非玩家角色 NPC(Non-Player Character)是一种创新的应用方式,可以使 NPC 在游戏中表现得更加自然、灵活和富有互动性。



2月15日,网易旗下手游《逆水寒》宣布:实装国内首个游戏版 ChatGPT,让智能 NPC 能和玩家自由生成对话,并基于对话内容,自主给出有逻辑的行为反馈。这样构建出来的 NPC 就可以为玩家提供更多有趣的反应,让玩家随意调戏。



需要注意的是,由于 LLM 模型通常需要较大的计算资源和预训练数据,对于某些游戏平台和设备可能存在性能和资源限制。因此,在应用 LLM 模型构建游戏 NPC 时,需要权衡模型复杂度和实际应用场景。


2.PPT制作

目前的自然语言处理模型(包括 LLM)主要专注于文本生成任务,如对话生成、文章写作、文本摘要等。虽然这些模型可以生成高质量的文本内容,但它们并不直接用于生成 PPT(Microsoft PowerPoint 演示文稿)这种特定的文件格式。


PPT 是一种包含幻灯片、图像、文本框等多媒体元素的演示文稿格式,与自然语言的文本生成任务有所不同。要生成 PPT 文件,需要借助与文本处理不同的工具和技术。需要强调的是,虽然 LLM 等自然语言处理模型不直接用于生成 PPT 文件,但可以辅助文本内容的生成。例如,可以使用 LLM 模型生成演讲稿的文本内容,然后将生成的文本内容放入PPT中,结合图像和布局设计,形成最终的演示文稿,比如利用 chatGPT 生成 markdown 格式的文案再导入到 mindshow 网站的模板中自动生成 PPT。



总体来说,目前实现 PPT 生成需要结合多种工具和技术,包括模板引擎、PPT 生成库、幻灯片设计工具等。选择合适的方法取决于具体的需求和技术能力。


3.艺术创作指导

相信大家之前都已经或多或少接触过 AI 绘画了,除了在自然语言处理方向上,大模型在图像、视频等数据的处理上也越来越精湛,可以模拟名画家的风格生成艺术作品甚至是视频,艺术创作者可以采用这种方式来为自己寻找灵感。


4.辅助视频创作

现在“图文成片”的功能已经流行开来,抖音的剪映、快手的快影、百度的百家号、B站的必剪等剪辑软件都支持根据文案,一键拼接图片和视频素材,并同步生成字幕和配音。国内外都有对应的网站可以生成视频素材,大大降低了视频创作者搜集素材的成本。


2022年5月,清华大学曾联合智源研究院发布国内首个开源的文本生成视频模型“CogVideo”。在其Demo网站中,选择“一个女孩在客厅里跳舞”就可以看到AI生成的4秒视频,分辨率为480×480。



但是值得注意的是,大模型在图片和视频方面的应用目前存在较多的争议,并且也容易侵犯到他人的劳动成果、肖像权和版权,所以要以合适的方式进行应用,避免损害他人的利益。




总结

其实从上面的内容中不难看出,目前大模型可以应用到各个领域,大家也可以打开脑洞想想如何将 AI 助手结合到我们的工作学习中,学会如何正确的使用大模型帮助我们更快更好的完成目标任务,比如这篇文章,就是在 chatGPT 小助理的协助下完成的(害羞)。总之,跟上时代的步伐对于我们而言终归是有益处的,如果觉得有所帮助,可以点个关注,追更教程


向量检索实验室

微信号:VectorSearch

扫码关注 了解更多

文章转载自向量检索实验室,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论