暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

#gStore-weekly | gBuilder功能详解之非结构化数据抽取

图谱学苑 2023-04-07
420

在构建知识图谱中,除了结构化数据的知识转换外,还需要非结构化数据的知识抽取。而非结构化数据的知识抽取又是知识图谱构建中的重难点问题也是必须解决的问题,因为当前非结构化数据的数据量占整体数据70%及以上,众多领域知识都存储在非结构化数据中,需要采用实体识别、关系抽取、属性抽取等算法来实现非结构化数据向知识的转变。gBuilder提供了丰富的非结构化数据抽取的能力,通过抽取流程的流水线设计,实现非结构化数据的快速、准确的转换,同时gBuilder采用解耦的方式,用户可根据自己实际业务场景和自身需求去选择各个模块的不同的算法模型,将其替换,来更好的支撑用户的业务。

1. Schema

无论是结构化数据抽取还是非结构化数据抽取均需首先进行Schema设计,详细操作可见Schema设计介绍

其次,通过非结构化构建中的【Schema预览】,可以看到与之对应的设计完成的Schema。

若出现加载失败未显示的情况,可点击【开始】下的【重载Schema】,重新加载显示。

2. 非结构化构建

2.1 进入非结构化构建

在项目管理卡片,点击项目管理中非结构化项目的【构建】,开始非结构化数据的图谱构建。

2.2 非结构化流水线设计

进入到非结构化构建流程,左边栏为信息抽取算法和算子,右边为画布,可通过拖拽的方式来构建抽取的流程,后面将针对构建流水线设计进行专门介绍。

流水线构建完成后,点击【开始构建】,将按照设定的构造流程对用户在数据管理中心上传的全量数据进行构建。

3. 数据管理

对于非结构化项目,我们需要加载数据集,即将用于构建图谱的非结构化数据按照每行一个样本的形式存储并导入系统中。在数据管理模块中,可以进行【上传数据集】、【导出数据集】以及【刷新】操作。其中,只能上传csv/txt形式的数据集,方便进行之后的知识抽取。

当构建流程设计完成并保存后,数据中心将根据连接到【构建结束】节点上的数据类型,产生需展示的结果类型;并在【构建状态】页面显示构建成功后,展示每条数据其对应的结果。

4. 构建状态

在【构建状态】面板中,可以看到具体的构建流程拓扑与构建进度。

完成构建后,可以查看构建的结果。如在【构建状态】面板中提示构建成功,说明前面设计的构建流程顺利从数据集中抽取出了构建知识图谱所需要的关系三元组。这些输出可通过直接下载获得json格式的全部三元组结果,或者通过点击【运行-生成nt文件】导出为nt文件,以便后续导入图数据库。

5. 模型中心

同时,我们提供大量的可选模型,在模型中心可以进行查看。这些模型有着不同的特性,用户可根据需求挑选最合适的模型作为构建模型。也可以使用自己的数据训练模型进行图谱构建,后续针对该部分内容也会进行详细介绍。


若大家在实际项目中需要使用gBuilder可联系运营同学或者发送邮件进行项目层面合作沟通。

诚邀大家参加
·gStore-weekly技术文章征集活动·
  相关技术文章,包含但不限于以下内容:系统技术解析、案例分享、实践总结、开发心得、客户案例、使用技巧、学习笔记等。文章要求原创。
  入选周刊即送精美礼品~

欢迎关注北京大学王选计算机研究所数据管理实验室微信公众号“图谱学苑“
实验室官网:https://mod.wict.pku.edu.cn/
微信社区群:请回复“社区”获取

实验室开源产品图数据库gStore:
gStore官网:http://www.gstore.cn/
GitHub:https://github.com/pkumod/gStore
Gitee:https://gitee.com/PKUMOD/gStore

文章转载自图谱学苑,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论