暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
FactChain_一个基于区块链的众包知识融合系统-朱向荣,吴鸿祜,胡伟.pdf
386
19页
2次
2022-05-19
免费下载
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software, [doi: 10.13328/j.cnki.jos.006627] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
FactChain:一个基于区块链的众包知识融合系统
朱向荣
,
吴鸿祜
,
(计算机软件新技术国家重点实验室(南京大),江苏 南京 210023)
通讯作者: 胡伟, E-mail: whu@nju.edu.cn
: 知识图谱作为诸多人工智能应用的关键,到学界和业界的广泛关注.当前的知识图谱一般由特定
组织构建并维护, RDF 转储文件或 SPARQL 查询接口的方式提供知识访问服务,这种中心化的管理方式存在不能
持久化访问的弊端.具体来说,一旦服务提供者单点崩溃,用户就无法以可靠的方式获取知识.此外,知识因时效性
可能需要更新,不同来源的知识之间可能存在冲突,传统的知识图谱构建维护方式难以效地处理这些问题.区块
链技术以其分布式存储与共识机制,为知识图谱的分布式构建与管理提供了新思路.FactChain 是一个基于区块链
的知识管理系统,具有为知识的多源共享与融合建立全新的去中心化生态的潜力.使用联盟链作为底层架构,由区
块链、组织和参与人三层结构组成.通过区块链上的智能合约编程实现融合多源冲突知识的真值验证算法,具有在
组织层面实现并部署基于分布式应用的参与人管理、在本地局部本体与全局共享本体间建立映射以及结合链上与
链下数据响应参与人查询请求等功能.
关键词: 知识图谱;区块链;分布式知识管理;知识融合;真值验证
中图法分类号: TP31
中文引用格式: 朱向荣,吴鸿祜,胡伟.FactChain:一个基于区块链的众包知识融合系统. 软件学报. http://www.jos.org.cn/
1000-9825/6627.htm
英文引用格式: Zhu XR, Wu HH, Hu W. FactChain: A Crowdsourcing Knowledge Fusion System Based on Blockchain. Ruan
Jian Xue Bao/Journal of Software, 2022 (in Chinese). http://www.jos.org.cn/1000-9825/6627.htm
FactChain: A Blockchain-Based Crowdsourcing Knowledge Fusion System
ZHU Xiang-Rong, WU Hong-Hu, HU Wei
(State Key Laboratory for Novel Software Technology (Nanjing University), Nanjing 210023, China)
Abstract: Knowledge graphs (KGs) have drawn massive attention from both academia and industry, and become the backbones of many
AI applications. Current KGs are often constructed and maintained by large parties, which provide services in the form of RDF dumps or
SPARQL endpoints. This kind of centralized management has inherent drawbacks like non-durable accessibility. Furthermore, some facts
in KGs may be outdated or conflicting, and there is no convenient way of resolving them democratically. As an innovative distributed
infrastructure, blockchain has many characteristics such as decentralization and consensus, which is of great significance for the
construction and management of KGs. In this paper, we design a blockchain-enhanced knowledge management framework called
FactChain, which aims to establish a new decentralized ecology for knowledge sharing and fusion. FactChain leverages a consortium
architecture containing blockchain, organizations and participants. The on-chain smart contracts enable the truth discovery algorithm of
multiple-source conflicting knowledge. FactChain also supports participant management, mapping between local schemata and global
ontology and integration of on/off-chain knowledge based on the decentralized application (DApp) in organizations.
Key words: knowledge graph; blockchain; distributed knowledge management; knowledge fusion; truth discovery
基金项目: 国家自然科学基金(61872172)
收稿时间: 2021-07-19; 修改时间: 2021-08-30, 2021-12-24; 采用时间: 2022-01-14; jos 在线出版时间: 2022-02-22
1 引言
Tim Berners-Lee 提出语义网
[1]
的概念,到谷歌发布 Google Knowledge Graph 至今,知识图谱已经成为语
义搜索、智能问答和推荐系统等诸多人工智能应用的关键支撑.知识图谱以结构化的方式组织、描述和理解客
观世界中的概念、实体及其之间的关系,是结构化的语义知识库.DBpedia
[2]
Wikidata
[3]
以及 Probase
[4]
知名
的大型知识图谱包含百万级别的实体和十亿级别的知识,通常由特定组织经过数据收集与清洗、知识抽取
合等流程构建并以版本更迭的形式进行中心化管理,一般以 RDF (Resource Description Framework)转储文件或
SPARQL 查询接口的形式提供知识访问服务.
然而,这种中心化的构建与管理方式存在固有弊端.譬如,如果一个知识图谱的服务站点崩溃,该知识图
谱无法被访问,即中心化的存储难以应对单点崩溃故障.又如,知识图谱中的一些知识可能随时间变化,并且
识之间可能存在冲突,传统知识图谱通过发布新版本来应对上述问题,鲜有便捷的增量式解决方案.比如,
至本文写作时,最新版本 DBpedia 仍将拜登(Joe Biden)作为美国副总统.另外,随着知识图谱的普及,用户生成
内容和传感器数据这些频繁更新的数据也被组织成知识图谱的形式,传统的中心化构建与管理方式难以适应
这种持续更新的数据特征.
作为比特币
[5]
(Bitcoin)为代表的电子货币的底层技术,区块链
[6]
(Blockchain)是一种创新性的分布式架
构和计算范式.区块链具有去中心化、开放、透明、可追溯、不可篡改特性,被广泛应用于证券交易
[7]
、电
商务
[8]
、物联网
[9]
以及其他许多领域.本文认为上述区块链的特性为知识图谱的构建与管理创造一种全新
的生态,有利于解决上面提到的知识图谱的中心化构建与管理方式的弊端.具体地,本文提出个基于区块链
众包知识融合系统 FactChain,关键技术与主要贡献如下:
1. FactChain 具有基于联盟链的三层架构,分别为区块链、组织和组织内的参与
.区块链的去中心化和
开放性保证了系统的单点崩溃容错性质;区块链的可溯源和不可篡改使得知识的贡献者和更新流
程可追溯.此外,基于联盟链的三层架构保证了 FactChain 作为一个分布式系统达成共识的效率.
2. FactChain 通过编程区块链上的智能合约(smart contract)实现链上的知识融合逻辑,保证了链上知识的
一致性访问.具体地,提出了一种置信度加权投票算法和一种垄断分红算法以自动化地执行众包知识
融合中的真值验证和激励过程.
3. 针对多值知识和随时间变更的知识这两种真值验证现实问题,在系统中设计专门策略加以解决.具体
:提出了先推断真值数量再确定真值集合的方法解决多值知识的真值验证问题.在链上采用统一
时序知识表示方法,设计了结合前一版本真值确定下一版本真值的策略处理随时间变更的知识融合
问题.
4. 为了提高系统的存储能力和保障私有数据隐私,FactChain 区分全局链上知识和组织级别链下知识.
组织层面实现分布式应用程序(Decentralized Application, DApp),具有参与人管理、链上链下模式转换
以及查询应答功能,从而支持结合链上和链下知识的查询和推理.
本文第 2 节介绍区块链的相关概念以及基于区块链的相关知识管理系统. 3 展示 FactChain 系统
,解释架构设计思路. 4 节描述 FactChain 的设计细节,包括系统的交互流程以及底层真值验证算法等.
5 报告真实数据集上进行 FactChain 性能和效果测试结果.最后, 6 总结全文并讨论未来工作.
2 相关工作
在本节中,首先介绍区块链的基础概念,然后概览基于区块链的相关知识管理系统.
2.1 区块链
区块链使用块链式数据结构存储和验证数据.每一个区块由区块头和区块体组成.区块头存储了当前区块
的元数据和上一个区块的哈希值,随时间不断增长的交易数据被组织成区块体.通过每个区块包含上一区块
哈希值密码学方式将不断生成的交易数据组织成不可篡改的链.区块链中的共识机制
[10]
旨在保证数据的最
终一致性.共识机制的研究最初源自分布式系统中容错机制的探索,本质是分布式节点之间建立信任、分发
权益并达成一致的算法
.区块链系统一般使用密码学方法保障数据传输和访问的安全.比特币系统使用椭圆曲
线电子签名算法进行比特币的确权,使用 SHA-256 哈希函数和 Merkle 树结构保护交易数据不可篡改.区块链系
of 19
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜