暂无图片
暂无图片
2
暂无图片
暂无图片
暂无图片
数学之美完整版.pdf
1313
48页
0次
2023-08-22
5墨值下载
数学之
作者:吴军 , Google 研究员 来源: Google 黑板报
数学之美 统计语言模
数学之美 谈谈中文分
数学之美 隐含马尔可夫模型在语言处理中的应用
数学之美 怎样度量信 ?
数学之美 简单之美:布尔代数和搜索引擎的索引
数学之美 图论和网络爬虫 (Web Crawlers)
数学之美 信息论在信息处理中的应
数学之美 贾里尼克的故事和现代语言处理
数学之美 如何确定网页和查询的相关性
数学之美 有限状态机和地址识别
数学之美 十一 Google 阿卡 47 的制造者阿米特 . 辛格博士
数学之美 十二 余弦定理和新闻的分类
数学之美 十三 信息指纹及其应用
数学之美 十四 谈谈数学模型的重要性
数学之美 十五 繁与简 自然语言处理的几位精英
数学之美 十六 不要把所有的鸡蛋放在一个篮子里 最大熵模型
数学之美 十七 闪光的不一定是金子 谈谈搜索引擎作弊问题 (Search Engine Anti-SPAM)
数学之美 十八 矩阵运算和文本处理中的分类问题
数学之美 十九 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)
数学之美 二十 自然语言处理的教父 马库斯
数学之美 二十一 布隆过滤器 Bloom Filter
数学之美 二十二 由电视剧《暗算》所想到 — 谈谈密码学的数学原理
数学之美 二十三 输入一个汉字需要敲多少个键 谈谈香农第一定
数学之美 二十四 从全球导航到输入法 —— 谈谈动态规
数学之美系列一:统计语言模型
数学之美系列一:统计语言模型
数学之美系列一:统计语言模型
数学之美系列一:统计语言模型
在很多涉及到自然语言处理的领域 如机器翻译 语音识别 印刷体或手写体识别 拼写纠
汉字输入和文献查询中 我们都需要知道一个文字序列是否能构成一个大家能理解的句
子,显示给使用者。对这个问题,我们可以用一个简单的统计模型来解决这个问题。
前言
也许大家不相信 数学是解决信息检索和自然语言处理的最好工具 它能非常清晰地描述这
些领域的实际问题并且给出漂亮的解决办法 每当 人们应用数学工具解决一个语言问题时
总会感叹数学之美 我们希望利用 Google 中文黑板报这块园地 绍一些数学工 以及
我们是如何利用这些工具来开发 Google 产品的
系列一: 统计语言模型 (Statistical
(Statistical
(Statistical
(Statistical Language
Language
Language
Language Models)
Models)
Models)
Models)
Google 的使命是整合全球的信息,所以我们一直致力于研究如何让机器对信息、语言做最
好的理解和处理。长期以来,人类一直梦想着能让机器代替人来翻译语言、识别 音、认
识文字(不论是印刷体或手写体)和进行海量文献的自动检索,这就需要让机器理解语言
但是人类的语言可以说是信息里最复杂最动态的一部分。为了解决 这个问题,人们容易想
到的办法就是让机器模拟人类进行学习 - 学习人类的语法、分析语句等等。尤其是在乔姆
斯基 Noam Chomsky 有史以来最伟大的语言学 提出 形式语言 以后 人们更坚定
利用语法规则的办法进行文字处理的信 憾的是 几十年过去 在计算机处理语言领
域,基于这个语法规则的方法几乎毫无突破。
其实早在几十年前,数学家兼信息论的祖师爷 香农 (Claude Shannon) 就提出了用数学的办
法处理自然语言的想法。遗憾的是当时的计算机条件根本无法满足大量信息处理的需要
以他这个想法当时并没有被人们重视。七十年代初,有了大规模集成电路的快速计算机后
香农的梦想才得以实现。
( Fred
Jelinek ) 。当贾里克在 IBM 公司学术 (Sabbatical Leave) ,领了一杰出
学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出的
给大家举个例子 在很多涉及到自然语言处理的领域 如机器翻译 语音识别 印刷体或手
写体识别 拼写纠 汉字输入和文献查询 我们都需要知道一个文字序列是否能构成一
个大家能理解的句子 显示给使用 对这个问题 我们可以用一个简单的统计模型来解决
这个问题。
S 表示一连串特定顺序排列的词 w1 w2 wn 换句话说 S 可以表示某
个由一连串特定顺序排练的词而组成的一个有意义的句子 现在 机器对语言的识别从某种
角度来说 就是想知 S 在文本中出现的可能性 也就是数 学上所说 S 的概率用 P(S)
表示。利用条件概率的公式, S 这个序列出现的概率等于每一个词出现的概率相乘,于
P(S) 可展开为:
P(S) = P(w1)P(w2|w1)P(w3| w1 w2) P(wn|w1 w2 wn-1)
of 48
5墨值下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜