暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

小白学NLP:实体关系抽取入门教程

Coggle数据科学 2022-05-17
374

信息抽取主要包括3项子任务:实体抽取、关系抽取和事件抽取,而关系抽取是信息抽取领域的核心任务和重要环节。实体关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系。本文为《实体关系抽取方法研究综述》论文的阅读笔记。

关系抽取定义

在自然语言处理领域,关系通常主要指代文本中实体之间的联系,如语法关系、语义关系等。通常将实体间的关系形式化地描述为关系三元组, 其中E指的是实体类型,R为的是关系描述类型。

基于以上的定义,可以直观地将关系抽取任务分成3个关键的模块:

  • 命名实体识别:是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等
  • 触发词识别:对触发实体关系的词进行分类,识别出是触发词还是非触发词,判定抽取出的关系是正类还是负类;
  • 关系抽取模块:从识别出的实体中抽取实体间的语义关系;

关系抽取评价指标

针对特定领域的关系抽取的结果,一般通过计 算对应的准确率(Precision)、召回率(Recall)和F1值来评价。

实体关系抽取方法

基于规则的关系抽取方法

基于规则的关系抽取方法要求规则构建者(如 语言学家等)对领域的背景和特点有深入的了解。

基于词典驱动的关系抽取方法

在基于词典驱动的关系抽取方法中,需要对词典进行扩充,通常只需新增指示实体关系类型的动词即可。

基于机器学习的抽取方法

有监督的关系抽取方法将关系抽取任务看作分类问题。通常需要预先了解语料库中所有可能的目标关系的种类,并通过人工对数据进行标注,建立训练语料库。

基于深度学习的关系抽取方法

有监督深度学习的关系抽取方法主要有流水线学习(pipeline) 和联合学习(joint)两种。

流水线学习

流水线学习方法是指在实体识别已经完成的基础上直接进行实体之间关系的抽取。早期的流水式学习方法主要为CNN或RNN。

在实体关系抽取方面使用CNN模型,由输入层、卷积层、池化层和softmax层组成,输入词向量和距离向量等原始数据进行实体关系抽取。

在实体关系抽取方面使用RNN模型,RNN对标注文本中的句子进行句法解析, 经过不断迭代得到了句子的向量表示,有效地考虑了句子的句法结构。

联合学习

联合学习方法有3种,包括基于参数共享的实体关系抽取方法、基于序列标注的实体关系抽取方法和基于图的实体关系抽取方法。

  • 参数共享方法:通过共享编码层在训练过程中产生的共享参数相互依赖。
  • 序列标注方法:利用一个端到端的神经网络模型抽取出实体之间的关系三元组。
  • 基于图的方法:利用图的节点表示实体,边表示关系。

学习交流群已成立

学习推荐系统,算法竞赛,组队参赛
添加👇微信拉你进群
加入了之前的社群不需要重复添加~


文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论