暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

长江大桥和人工智能

奎林说 2021-04-18
776


话语的魅力及其他,尽量读到最后一句

有个小伙子没来过南京,一直对长江大桥抱有热烈的期望。终于有一次,他来了,看到“南京市长江大桥欢迎您”几个字,他非常兴奋,在大桥上拍了很多照片,回去逢人就说:南京太好了,市长“江大桥”都欢迎大家去逛大桥!后来,他又去了武汉,他更兴奋了,说“江大桥”又来武汉当市长了,他真是个好人啊。
某一条巷子里住着一户人家,他家墙的一边紧靠大路,这面墙的墙角下,常常有人在那里小便,于是主人在墙上写了一句话:“行人等不得在此小便。”没想到,过了几天,有人在句子上加了标点,变成了“行人等不得,在此小便。”主人一看,气得脸色都变白了。
类似这样的断句故事或段子非常多,那首著名的《清明》,有七八种改法,看得出汉语的断句是多么重要和有趣。
人工智能里面有个重要的应用就是人机交互,人和电脑聊天。场景就很多了:电商的机器人客服、各个政务窗口的问答窗口、图书馆博物馆档案馆等服务部门的在线咨询机器人,这些都是人机交互的典型案例。
语言有很多种,在断句上,基于字母的语言,比如英语,人机交互要比汉语简单得多,以上面的小故事为例,计算机如何对输入的汉语进行断句和理解,然后准确地输出,这是一个不容易的事情。
比尔•盖茨说:语言理解是人工智能皇冠上的明珠。
这一方面说明语言理解在AI众多领域中的重要性,另一方面也反映了语言理解本身的难度。
在中文里,这就是很重要的“中文分词技术”。
中文分词技术,是中文自然语言处理中非常关键和核心的部分。在自然语言理解中,词( token)是最小的能够独立活动的有意义的语言成分。将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能像英文那样过渡到短语划分、概念抽取以及主题分析,以至自然语言理解,最终达到智能计算的最高境界。因此,每个NLP(自然语言处理)工作者都应掌握分词技术。
分词的概念和分类。“词”这个概念一直是汉语言学界纠缠不清而又挥之不去的问题。“词是什么”(词的抽象定义)和“什么是词”(词的具体界定)这两个基本问题迄今为止也未能有一个权威、明确的表述,当今更是没有一份令大家公认的词表。问题的主要难点在于汉语结构与印欧体系语种差异甚大,对词的构成边界很难进行界定。比如在英语中,单词本身就是“词”的表达,一篇英文文章的格式就是“单词”加分隔符(空格)。而在汉语中,词以字为基本单位,但是一篇文章的语义表达却仍然是以词来划分。因此,需要针对中文汉字,将其按照一定的方式进行组织,分成不同的词。
中文分词是让计算机自动识别出句子中的词,然后在词间加入边界标记符。这个过程看似简单,然而实践起来要复杂得多,主要困难在于分词歧义。下面以NLP分词的经典场景为例进行说明,短语“结婚的和尚未结婚的”,应该分词为“结婚/的/和/尚未/结婚/的”,还是“结婚/的/和尚/未/结婚/的”呢?对于这个问题,机器很难处理。此外像未登录词、分词粒度粗细等都是影响分词效果的重要因素。
自中文自动分词被提出以来,历经近30年的探索,先后出现了很多分词方法,可主要归纳为规则分词、统计分词和混合分词(规则+统计)这3个流派。最近这几年又兴起了以深度学习的方式进行分词,比如 BILSTM+CRF。
规则分词是最早兴起的方法,主要通过人工设立词库,按照一定方式进行匹配切分,其实现简单高效,但对没有录入词库的新词很难进行处理。随后统计机器学习技术兴起,应用于分词任务上就有了统计分词方法。该方法能够较好地应对新词发现等特殊场景。然而在实践中,单纯的统计分词也有其缺陷:太过依赖语料的质量。因此实践中多是采用规则分词和统计分词这两种方法的结合,即混合分词。
下面只是列出这些算法的题目,做一了解即可,如果我把算法和代码贴出来,很多人会立即关掉这篇文章的。
规则分词:正向最大匹配法,即MM法;逆向最大匹配法,即RMM法;双向最大匹配法。
统计分词:语言模型,它在信息检索、机器翻译、语音识别中承担着重要的任务;HMM法,就是那个有名的隐马尔科夫模型;其他统计分词方法,比如条件随机场、神经网络分词、对比规则分词法等。
混合分词法。
Jieba分词:这个拿汉语读,有点怪怪的。
准确率评测法:混淆矩阵;中文分词中的P、R、F1计算法。
即使有了这么多算法,中文分词还是很难很难,所以,大家用图书馆在线咨询机器人的时候,就不要抱怨它那么傻了。
毕竟,有这种情况:
我爸爸爱吃苹果;俺爹爱啃红富士。
毕竟,还有这种情况:
南京市市长就是一个叫江大桥的人来担任,不可以吗?



文章转载自奎林说,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论