《从零开始的大语言模型原理与实践教程》第一章总结

DBA札记 2025-07-24

134

以下是该章节内容的总结：

1. 什么是NLP？

自然语言处理（NLP）是一门让计算机能够理解、解释和生成人类语言的技术。它是人工智能领域一个非常活跃和重要的研究方向，其核心目标是通过计算机程序来模拟人类对语言的理解和运用能力。

2. NLP的发展历程

NLP的发展可以大致分为三个阶段：

基于规则的时期 (1950s - 1980s): 早期研究主要依赖于语言学家手动编写大量的规则来处理语言。这种方法在特定领域和任务上可以取得不错的效果，但通用性和鲁棒性较差。
基于统计的时期 (1990s - 2010s): 随着计算机算力的提升和大规模语料库的出现，统计机器学习方法逐渐成为主流。这类方法通过从数据中学习语言的统计规律来进行预测和决策。
基于深度学习的时期 (2010s - 至今): 深度学习，特别是神经网络模型的兴起，为NLP带来了革命性的突破。词向量（Word Embedding）等技术的出现，使得计算机能够更好地捕捉词语的语义信息。

3. NLP的任务分类

NLP涵盖了众多任务，可以大致分为以下几类：

4. 文本表示的演进

为了让计算机能够处理文本，需要将文本转换为数值形式，这个过程称为文本表示。其演进过程如下：

离散表示:
One-hot 编码: 将每个词表示为一个高维向量，其中只有一个维度为1，其余为0。这种方法简单但存在维度灾难和语义鸿沟的问题。
词袋模型 (Bag-of-Words): 只考虑词频，不考虑词序，同样会丢失语义信息。
TF-IDF: 考虑了词频和逆文档频率，能够更好地评估一个词在文档中的重要性。

5. 总结

这一章为读者构建了NLP的基础知识体系，从宏观上介绍了NLP的定义、发展脉络、主要任务以及核心技术之一的文本表示方法的演变。

ps: 本号也建了一个AI交流群，欢迎感兴趣的朋友后台私信"AI交流群"加入。一起学习交流。

文章转载自DBA札记，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。