
在工程知识领域,我们面临着一个核心问题:如何将专利数据库中的海量技术信息转化为有用的、可操作的知识?
现有的知识图谱虽然在整合常识性知识方面取得了巨大成功,但在处理工程领域的专业和技术性知识方面,却显得力不从心。
为此本文提出了一个专门针对工程领域的知识图谱,处理了超过600万项实用专利声明,这一庞大的数据量,不仅验证了方法的可重复性和可扩展性,也确保了知识图谱的丰富性和深度。

步 骤
从专利数据库中提取信息并构建工程知识图谱的过程是一项复杂的任务,涉及到多个步骤,每个步骤都需要精心设计和精确执行。
具体而言包括以下步骤:“收集-清洗-分词-提关系-三元组-图谱化-存储-应用-评估”:
收集(Collect):搜集自1975年以来的600多万项美国专利文档。
清洗(Clean):清洗文本数据,去除无关词汇和标点,保留关键信息。

分词(Tokenize):利用NLP技术对文本进行分词,识别词性,关注名词、动词、形容词。
提关系(Relate):根据专利声明的句法结构,开发规则提取实体和关系。
三元组(Triple):将提取的信息组织成三元组,确立实体间的关系。
图谱化(Graphize):将三元组整合,构建起互联互通的知识图谱。

图:US4014111号——“军械训练辅助工具”的知识图谱 A) 以JSON格式存储,B) 用图形表示,其中 中心主题 - ◼, 实体 - ◼, 层次关系 - ◼, 非层次关系。
存储(Store):使用JSON等格式存储知识图谱,保证其结构化和可扩展性。
应用(Apply):通过氧饱和度仪等案例,展示知识图谱在工程推理中的应用。

脉搏血氧仪的邻近知识图谱。A) 层次化关系,B) 非层次化关系
评估(Evaluate):对知识图谱进行持续评估,优化提取规则和知识表示。
实际运用
这篇论文的实际意义在于,它为工程设计和知识检索提供了一个强大的工具,可以帮助工程师和研究人员更有效地进行设计推理、问题解决和知识发现。
例如,在设计新产品时,可以通过知识图谱快速找到相关的技术解决方案和创新思路。

A) 第一级和 B) 第二级围绕中心实体“吹风机”的实体和关系在TechNet中。图例:中心主题 - ◼, 实体 - ◼, 定性关系 - ◼ 图例:中心主题 - ◼, 概念 - ◼, 定性关系 - ◼。
论文原文
https://doi.org/10.48550/arXiv.2106.06739
— END —
更多 AI 最新进展
尽在活水快报 ➣ https://42digest.io
◎ ◎ ◎ ◎
关注 + 标星👇🏻
轻松跟踪 AI 研究领域前沿进展





