排行
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
中国数据库
向量数据库
时序数据库
实时数据库
搜索引擎
空间数据库
图数据库
数据仓库
大调查
2021年报告
2022年报告
年度数据库
2020年openGauss
2021年TiDB
2022年PolarDB
2023年OceanBase
首页
资讯
活动
大会
学习
课程中心
推荐优质内容、热门课程
学习路径
预设学习计划、达成学习目标
知识图谱
综合了解技术体系知识点
课程库
快速筛选、搜索相关课程
视频学习
专业视频分享技术知识
电子文档
快速搜索阅览技术文档
文档
问答
服务
智能助手小墨
关于数据库相关的问题,您都可以问我
数据库巡检平台
脚本采集百余项,在线智能分析总结
SQLRUN
在线数据库即时SQL运行平台
数据库实训平台
实操环境、开箱即用、一键连接
数据库管理服务
汇聚顶级数据库专家,具备多数据库运维能力
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
我的订单
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
资讯
活动
大会
课程
文档
排行
问答
我的订单
首页
专家团队
智能助手
在线工具
SQLRUN
在线数据库即时SQL运行平台
数据库在线实训平台
实操环境、开箱即用、一键连接
AWR分析
上传AWR报告,查看分析结果
SQL格式化
快速格式化绝大多数SQL语句
SQL审核
审核编写规范,提升执行效率
PLSQL解密
解密超4000字符的PL/SQL语句
OraC函数
查询Oracle C 函数的详细描述
智能助手小墨
关于数据库相关的问题,您都可以问我
精选案例
新闻资讯
云市场
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
专家团队
智能助手
精选案例
新闻资讯
云市场
微信扫码
复制链接
新浪微博
分享数说
采集到收藏夹
分享到数说
首页
/
长江大桥和人工智能
长江大桥和人工智能
奎林说
2021-04-18
776
话语的魅力及其他,尽量读到最后一句
有个小伙子没来过南京,一直对长江大桥抱有热烈的期望。终于有一次,他来了,看到“南京市长江大桥欢迎您”几个字,他非常兴奋,在大桥上拍了很多照片,回去逢人就说:南京太好了,市长“江大桥”都欢迎大家去逛大桥!后来,他又去了武汉,他更兴奋了,说“江大桥”又来武汉当市长了,他真是个好人啊。
某一条巷子里住着一户人家,他家墙的一边紧靠大路,这面墙的墙角下,常常有人在那里小便,于是主人在墙上写了一句话:“行人等不得在此小便。”没想到,过了几天,有人在句子上加了标点,变成了“行人等不得,在此小便。”主人一看,气得脸色都变白了。
类似这样的断句故事或段子非常多,那首著名的《清明》,有七八种改法,看得出汉语的断句是多么重要和有趣。
人工智能里面有个重要的应用就是人机交互,人和电脑聊天。场景就很多了:电商的机器人客服、各个政务窗口的问答窗口、图书馆博物馆档案馆等服务部门的在线咨询机器人,这些都是人机交互的典型案例。
语言有很多种,在断句上,基于字母的语言,比如英语,人机交互要比汉语简单得多,以上面的小故事为例,计算机如何对输入的汉语进行断句和理解,然后准确地输出,这是一个不容易的事情。
比尔•盖茨说:语言理解是人工智能皇冠上的明珠。
这一方面说明语言理解在AI众多领域中的重要性,另一方面也反映了语言理解本身的难度。
在中文里,这就是很重要的“中文分词技术”。
中文分词技术,是中文自然语言处理中非常关键和核心的部分。在自然语言理解中,词( token)是最小的能够独立活动的有意义的语言成分。将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能像英文那样过渡到短语划分、概念抽取以及主题分析,以至自然语言理解,最终达到智能计算的最高境界。因此,每个NLP(自然语言处理)工作者都应掌握分词技术。
分词的概念和分类。“词”这个概念一直是汉语言学界纠缠不清而又挥之不去的问题。“词是什么”(词的抽象定义)和“什么是词”(词的具体界定)这两个基本问题迄今为止也未能有一个权威、明确的表述,当今更是没有一份令大家公认的词表。问题的主要难点在于汉语结构与印欧体系语种差异甚大,对词的构成边界很难进行界定。比如在英语中,单词本身就是“词”的表达,一篇英文文章的格式就是“单词”加分隔符(空格)。而在汉语中,词以字为基本单位,但是一篇文章的语义表达却仍然是以词来划分。因此,需要针对中文汉字,将其按照一定的方式进行组织,分成不同的词。
中文分词是让计算机自动识别出句子中的词,然后在词间加入边界标记符。这个过程看似简单,然而实践起来要复杂得多,主要困难在于分词歧义。下面以NLP分词的经典场景为例进行说明,短语“结婚的和尚未结婚的”,应该分词为“结婚/的/和/尚未/结婚/的”,还是“结婚/的/和尚/未/结婚/的”呢?对于这个问题,机器很难处理。此外像未登录词、分词粒度粗细等都是影响分词效果的重要因素。
自中文自动分词被提出以来,历经近30年的探索,先后出现了很多分词方法,可主要归纳为规则分词、统计分词和混合分词(规则+统计)这3个流派。最近这几年又兴起了以深度学习的方式进行分词,比如 BILSTM+CRF。
规则分词是最早兴起的方法,主要通过人工设立词库,按照一定方式进行匹配切分,其实现简单高效,但对没有录入词库的新词很难进行处理。随后统计机器学习技术兴起,应用于分词任务上就有了统计分词方法。该方法能够较好地应对新词发现等特殊场景。然而在实践中,单纯的统计分词也有其缺陷:太过依赖语料的质量。因此实践中多是采用规则分词和统计分词这两种方法的结合,即混合分词。
下面只是列出这些算法的题目,做一了解即可,如果我把算法和代码贴出来,很多人会立即关掉这篇文章的。
规则分词:正向最大匹配法,即MM法;逆向最大匹配法,即RMM法;双向最大匹配法。
统计分词:语言模型,它在信息检索、机器翻译、语音识别中承担着重要的任务;HMM法,就是那个有名的隐马尔科夫模型;其他统计分词方法,比如条件随机场、神经网络分词、对比规则分词法等。
混合分词法。
Jieba分词:这个拿汉语读,有点怪怪的。
准确率评测法:混淆矩阵;中文分词中的P、R、F1计算法。
即使有了这么多算法,中文分词还是很难很难,所以,大家用图书馆在线咨询机器人的时候,就不要抱怨它那么傻了。
毕竟,有这种情况:
我爸爸爱吃苹果;俺爹爱啃红富士。
毕竟,还有这种情况:
南京市市长就是一个叫江大桥的人来担任,不可以吗?
ai
人工智能
文章转载自
奎林说
,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
领墨值
有奖问卷
意见反馈
客服小墨