本期将分享近期全球知识图谱相关
行业动态、数据集推荐

1月16日,毕马威中国发布《2022金融科技发展趋势》报告。

报告显示,ABCD技术(人工智能、区块链、云计算、大数据)仍然为金融科技企业的核心技术。
值得注意的是,2022年知识图谱首次超越区块链成为排名第四的技术要素,占比34%;深度学习与区块链并列第五,占比33%。体现出金融科技企业在立足ABCD等核心技术的同时,也积极探索其他技术,将技术与金融场景进行深化融合。
随着元宇宙在基础研究、技术创新、场景落地等方面逐渐取得进展,其市场潜力也进一步得到认可。金融科技企业也开始积极布局虚拟现实、边缘计算等相关技术。

近日Trace Labs通过BUILDCHAIN项目,使用OriginTrail去中心化知识图谱(DKG)建立一个值得信赖的知识库,提高效率,减少错误,增加透明度和信任度,促成更加可持续的建筑项目。
Trace Labs的主要贡献将是将OriginTrail去中心化知识图谱(DKG)与现有的欧盟数字建筑日志系统集成, DKG将提供一个防篡改和分散的数据库,可供建筑物生命周期中的所有各方访问,包括建筑师,承包商,建筑业主和监管机构。这有助于通过以下方式提高所有利益相关者之间的透明度、信任和协作:
作为数字孪生的互联知识资产:DKG 将为所有建筑相关数据(包括计划、材料、检查结果等)提供开放、单一的事实来源。这将使各方都可以轻松实时发现、访问和更新信息,从而改善沟通和协作。

数据验证:使用区块链技术,添加到DKG的所有数据都是指纹识别的,不能被篡改,确保建筑物生命周期数据的真实性。
预测性维护: 人工智能和机器学习可用于分析来自DKG的数据,以识别模式并预测未来的结果,例如维护需求。这有助于改善建筑维护并减少停机时间。
合规性和法规:DKG 可用于确保符合建筑规范和法规,方法是以标准化方式存储所有相关信息,并使其可供监管机构实时访问。
本周推荐的是发表于WSDM 2022的工作Mave: A product dataset for multi-source attribute value extraction,构造发布了一个大规模多源的商品属性值抽取数据集,作者来自谷歌。

商品属性作为商品特征的重要组成部分,在电商平台的搜索、推荐、问答等任务中发挥重要作用,但海量的商品属性往往存在错误和缺失,因此属性值抽取任务得到学术和工业界的广泛关注与研究。从早期的基于规则和词典的方法,到近年来视为命名实体识别、基于深度学习的序列标注方法等,属性值抽取有较长的研究历史。
但属性值抽取方法依赖高质量的训练数据集,现有的从亚马逊、淘宝、京东等电商平台构造的数据集多存在规模小、数据简单、数据种类单一等局限,限制了抽取方法的进一步发展。为此,本文构造发布了一个大规模多源属性值抽取数据集MAVE,通过人工规则+机器过滤后处理等手段,从亚马逊网页提取了包含1257类不同商品、超过3百万条属性标注的数据,并通过人工校验保证了数据的质量。在此基础上,文章还提出了一个基于问答的属性值抽取模型MAVEQA,实验证明了数据的价值和方法的有效性。
数据集统计信息和文章模型的整体结构如下图所示:


完整的数据集已经发布,感兴趣的读者可以关注:
更多链接
内容:胡喆媛、代雪佩、薛冰聪、王图图
编辑:王图图
排版:王图图

诚邀您加入我们的gStore社区,我们将在群内解决使用问题,分享最新成果~
请在微信公众号图谱学苑发送“社区”入群~或扫码入群



欢迎关注北京大学王选计算机研究所数据管理实验室微信公众号“图谱学苑“
实验室官网:https://mod.wict.pku.edu.cn/
微信社区群:请回复“社区”获取
gStore官网:http://www.gstore.cn/
GitHub:https://github.com/pkumod/gStore
Gitee:https://gitee.com/PKUMOD/gStore





