暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

图谱动态|学苑周刊 NO.119

图谱学苑 2022-11-08
356

本期将分享近期全球知识图谱相关

行业动态、会议讲座、论文推荐

—--| 行业动态 |--—
华为阅读“知识图谱”新功能

在 11 月 4 日至 6 日举行的华为开发者大会(HDC2022)上,华为阅读的“WebBrain 搜索”和“知识图谱”两项全新功能首次亮相。

其中,WebBrain 搜索功能可帮助用户实时解答知识点或延展阅读。华为表示,在读到自己看不懂或感兴趣的内容时,用户无需停下来查阅资料,在华为阅读客户端内即可进行实时智能搜索。

据介绍,WebBrain 会根据用户选中句子的关键字词进行意图识别和查询,并自动整理与聚合全网相关知识内容,生成带有引用的权威知识解答,最终得到一份要素齐全、结构完整的内容。

华为阅读的知识图谱功能是由华为阅读、华为云、伦敦研究所等联合研发,基于百万本小说数据集,训练十余个AI算法模型来构建的。通过语义匹配算法,构建高精度的人物关系、时间脉络、故事情节、逻辑结构等内容模型,使之一目了然。辅助用户阅读,实现毫秒级图谱查询,扫清阅读障碍,能够让用户对内容理解准确度提升30%,全心全意的沉浸于故事情节中轻松阅读,增加用户阅读的热情、主动性和阅读的质量,从而让阅读事半功倍。

https://rkwf.cn/111Q6

快手提出亿级别多模态短视频百科体系“快知”

当前,越来越多的短视频用户不仅希望利用碎片化的时间来休闲娱乐,也开始希望能够在短视频平台中获取更多知识。为了更好地理解和组织泛知识视频,快手 MMU 联合哈尔滨工业大学等提出业界首个多模态短视频百科—— " 快知(Kuaipedia)":通过多模态和知识图谱技术从海量短视频中挖掘大规模高质量的知识视频,并将其结构化,形成体系化的短视频百科知识库,为用户提供更好的知识获取体验,同时激发创作者创造优质知识内容,构建良性的知识分享生态。

团队从快手海量短视频中挖掘出亿级别知识类视频,并对其进行了结构化,构建了千万级词条和知识点视频百科体系。" 快知(Kuaipedia)" 的提出有助于学界推动 AI 通过多模态信息理解世界知识,且在产业界落地有较大想象空间。

https://rkwf.cn/111Q7

Gemini Data推出Explore无代码图数据平台入门版本

Gemini Data旨在帮助用户“连接数据中的点”以进行快速决策,推出了Gemini Explore现代无代码图数据平台的免费入门版本。Gemini Explore旨在颠覆当前的分析市场并推动图技术的大规模采用,帮助用户查看其业务的连接视图,而无需专门的技术技能或高级数据科学培训。

无需编写代码,也无需构建或维护基础结构,“Explore”是开始使用图数据项目的最快方法。该平台入门版的引入使用户可以在建立长期承诺之前亲自体验功能和易用性。在初学者体验中,用户可以使用总文件大小不超过 100MB 的 CSV 文件数据创建一个图项目,并可以访问基于云的可视化数据探索工具的全部功能。除了一系列帮助用户启动项目的短视频外,Starter还包括一个完整的平台教程和一系列短视频,以帮助用户启动他们的项目,Gemini Data团队只需单击一下即可提供指导,以充分利用体验。 

https://rkwf.cn/111Q8


—--| 会议讲座 |--—

CNCC 2022

CNCC(中国计算机大会)自2003年首次举办以来,经过十八届的发展,已成为中国计算机领域首屈一指的年度盛会,是CCF会员年度团聚的重要平台。

今年,第19届CNCC将于12月8-10日在贵阳国际生态会议中心召开。大会主题确定为“算力 数据 生态”,并将重点在保持多样性、聚焦热点前沿话题、平衡学术界和产业界参与等维度展开讨论。

详情请访问:
https://ccf.org.cn/cncc2022

WISA 2022

第十九届CCF中国信息系统及应用大会(WISA 2022)将于2022年11月11-13日在大连召开。

大会将围绕“面向数字化转型的信息系统”主题,关注智慧信息系统、智慧城市、智慧政务、智慧医疗健康与信息系统安全等领域,聚焦区块链、知识图谱、数据融合与共享治理等关键问题,搭建学术、企业、政府交流平台。会议将邀请信息系统关键技术领域的资深专家做主题报告,分享最新的前沿技术与产业热点。会议期间,还将组织专题论坛、企业前沿论坛、专委沙龙等活动,力求全方位地扩大交流范畴,拓展交流形式,提升交流效果。

详情请访问:

https://conf.ccf.org.cn/web/api/m9475032704175349761645943983427.action


—--| 论文推荐 |--—
DuEE-Fin

本周推荐的是百度构造的金融领域篇章级事件抽取数据集DuEE-Fin,相关文章DuEE-Fin: A Large-Scale Dataset for Document-Level Event Extraction近日发表于NLPCC 2022,对数据集的构造和实验进行了分析和总结。

事件抽取是信息抽取的一个子任务,致力于从非结构化文本中提取结构化的事件信息,包括事件类型和事件论元等,在知识库构造、舆情分析、新闻理解等一系列下游任务中广泛应用。

在过去若干年里,ACE05、DuEE等句子级的事件抽取数据集相继发布,并在预训练模型的发展中获得比较出色的结果,更多工作开始关注更接近真实应用场景的长文档事件抽取任务,并且有MUC-4、RAMS、ChFinAnn等数据集的发布,但是存在规模有限、事件类型单一等问题。

百度于2021年3月发布了DuEE-fin的金融领域篇章级事件抽取数据集,规模大、类型丰富、难度高,并举办了开放的比赛,一年多以来吸引了1690个团队的参加。他们近日将数据集的构造过程及实验结果总结于NLPCC 2022的这篇文章中,对致力于入门实践或深入研究事件抽取的读者都会很有帮助。

DuEE-Fin的标注格式如下图所示。作者总结了文档级事件抽取的三个主要挑战:建模长文本输入、同一文档的多事件识别、多值元素问题(如同一元素在不同事件中扮演角色、同一元素在同一事件中扮演不同角色、不同元素在同一事件中扮演同一角色等)。

DuEE-Fin的构造包括schema构造、候选文档收集、专家标注三个阶段,最终得到包含13种事件类型、92种论元角色的事件schema,对1.1万+文档进行了标注,包含1.5万+事件实体和8万+事件角色。与现有事件抽取数据集相比,DuEE-Fin类型和样本更加丰富,也由于涵盖更多的多事件和多值元素数据而更具挑战性。

作者使用5个基准方法进行实验,在其他数据集上表现良好的模型在DuEE-Fin上性能一般,还有待更多新的方法解决该数据集的挑战。

对该数据集及其比赛感兴趣的读者可以关注:https://www.luge.ai/#/luge/dataDetail?id=7



更多链接


图数据库 gStore 1.0 版本正式发布
图数据库入门系列 | AI4DB入门与思考-北京大学杨磊博士
华为天才少年|王选所毕业生杨磊
图数据库入门系列 | 图流研究入门-北京大学苟向阳博士
北京大学王选计算所数据管理研究室招聘启事
自主可控图数据库gStore新版0.9.1发布
公开课程 | 图数据管理与挖掘 最终讲-第九讲:面向知识图谱的自然语言问答
图说《人民的名义》
导师访谈 | 邹磊:对数据科学以及本科生科研的思考

内容:胡喆媛、代雪佩、薛冰聪、王图图

编辑:王图图

排版:王图图




诚邀您加入我们的gStore社区,我们将在群内解决使用问题,分享最新成果~


请在微信公众号图谱学苑发送“社区”入群~或扫码入群



免责声明本文全部内容均来源于网络开放信息整理,如有侵权,请联系删除

欢迎关注北京大学王选计算机研究所数据管理实验室微信公众号“图谱学苑“
实验室官网:https://mod.wict.pku.edu.cn/
微信社区群:请回复“社区”获取

实验室开源产品图数据库gStore:
gStore官网:http://www.gstore.cn/
GitHub:https://github.com/pkumod/gStore
Gitee:https://gitee.com/PKUMOD/gStore





文章转载自图谱学苑,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论