暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

使用HanLP增强Elasticsearch分词功能

羊八井花园 2017-04-12
508

hanlp-ext 插件源码地址:https://github.com/hualongdata/hanlp-ext

Elasticsearch 默认对中文分词是按“字”进行分词的,这是肯定不能达到我们进行分词搜索的要求的。官方有一个 SmartCN 中文分词插件,另外还有一个 IK 分词插件使用也比较广。但这里,我们采用 HanLP 这款 自然语言处理工具 来进行中文分词。

Elasticsearch

Elasticsearch 的默认分词效果是惨不忍睹的。

1

2

3

4

GET /_analyze?pretty

{

"text" : ["重庆华龙网海数科技有限公司"]

}


输出:重  庆  华  龙  网  海  数  科  技  有  限  公  司

可以看到,默认是按字进行分词的。

elasticsearch-hanlp

HanLP

HanLP 是一款使用 Java 实现的优秀的,具有如下功能:

中文分词

词性标注

命名实体识别

关键词提取

自动摘要

短语提取

拼音转换

简繁转换

文本推荐

依存句法分析

语料库工具

安装 elasticsearch-hanlp(安装见:https://github.com/hualongdata/hanlp-ext/tree/master/es-plugin
)插件以后,我们再来看看分词效果。

1

2

3

4

5

GET /_analyze?pretty

{

"analyzer" : "hanlp",

"text" : ["重庆华龙网海数科技有限公司"]

}


输出:重庆  华龙网  海数  科技  有限公司

HanLP 的功能不止简单的中文分词,有很多功能都可以集成到 Elasticsearch 中。

心动不如行动:https://github.com/hualongdata/hanlp-ext


文章转载自羊八井花园,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论