
计 算 机 研 究 与 发 展
DOI
:
10.7544∕issn1000G1239.2021.20210323
JournalofCom
p
uterResearchandDevelo
p
ment 58
(
8
):
1751 1760
,
2021
收稿日期
:
2021
-
04
-
01
;
修回日期
:
2021
-
06
-
09
基金项目
:
国家自然科学基金项目
(
61662031
);
中国科学技术信息研究所重点工作项目
(
ZD2020G18
)
Thisworkwassu
pp
ortedb
y
the NationalNaturalScienceFoundationofChina
(
61662031
)
andtheFundoftheInstituteof
ScientificandTechnicalInformationofChina
(
ZD2020G18
)
.
通信作者
:
李茂西
(
mosesli@
j
xnu.edu.cn
)
基于孪生
BERT
网络的科技文献类目映射
何 贤 敏
1
李 茂 西
1
何 彦 青
2
1
(
江西师范大学计算机信息工程学院
南昌
330022
)
2
(
中国科学技术信息研究所
北京
100038
)
(
xianminhe@
j
xnu.edu.cn
)
SiameseBERTGNetworksBasedClassification Ma
pp
in
g
ofScientificand
Technolo
g
icalLiterature
HeXianmin
1
,
LiMaoxi
1
,
andHeYan
q
in
g
2
1
(
Schoolo
f
Com
p
uterIn
f
ormationandEn
g
ineerin
g
,
Jian
g
xiNormalUniversit
y
,
Nanchan
g
330022
)
2
(
Instituteo
f
Scienti
f
icandTechnicalIn
f
ormationo
f
China
,
Bei
j
in
g
100038
)
Abstract International
p
atentclassification
(
IPC
)
and Chineselibrar
y
classification
(
CLC
),
as
im
p
ortantclassificationmarks
,
p
la
y
anim
p
ortantroleintheor
g
anizationandmana
g
ementof
p
atent
informationand
j
ournalliteratureres
p
ectivel
y
.Howtoaccuratel
y
establishthema
pp
in
g
relationshi
p
betweentwoclassificationsisof
g
reatsi
g
nificancetotherealizationofcrossGbrowsin
g
andretrievalof
p
atentinformationand
j
ournalresources.Inthe
p
a
p
er
,
asiamesenetworkbasedonBERT
p
reGtrainin
g
contextuallan
g
ua
g
emodelis
p
ro
p
osedtoestablishthema
pp
in
g
relationshi
p
betweenIPCandCLC.A
siamesenetwork modelisusedtoabstractthedescri
p
tiontextsoftwoclassificationcate
g
ories
res
p
ectivel
y
,
andthesentencevectorsofthesamedimensionarecalculatedb
y
avera
g
e
p
oolin
g
the
wordre
p
resentationafterabstraction
,
andthesimilarit
y
scorebetweensentencesiscalculatedbased
oncosinesimilarit
y
tocom
p
leteclassificationma
pp
in
g
.Thema
pp
in
g
cor
p
usbetweenIPCcate
g
or
y
and
CLCcate
g
or
y
ismanuall
y
annotated.Theex
p
erimentalresultsonthecor
p
usshowthatthe
p
ro
p
osed
methodissi
g
nificantl
y
betterthantheruleGbased methodandotherdee
p
neuralnetwork methods
,
suchasSiaGMulti
,
BiGTextCNN
,
BiGLSTM etc.Therelevantcode
,
models
,
and manualannotation
cor
p
usare
p
ublicl
y
released.
Ke
y
words international
p
atentclassification
;
Chineselibrar
y
classification
;
siameseBERTGnetworks
;
classificationma
pp
in
g
;
contrastiveloss
摘
要
国际专利分类法
(
international
p
atentclassification
,
IPC
)
和中国图书馆分类法
(
Chineselibrar
y
classification
,
CLC
)
作为重要分类标识
,
分别在 专利信 息和期 刊文献 的组织 以 及管 理 中发 挥 着重 要 作
用
.
如何准确地建立它们之间的映射 关系对 实现专 利信息
、
期刊资 源交 叉 浏览 和 检索 有 着重 要 的意 义
.
提出了基于
BERT
预训练上下文 语 言模 型 的 孪 生 网 络 用 于 建 立
IPC
类 目 和
CLC
类 目 之 间 的 映 射 关
系
,
利用孪生网络模型分别抽象这
2
个分类法类目描述文本
,
通过平均池化抽象后的向量表示计算得到
它们相同维度的句子向 量
,
基 于 余 弦 相 似 度 计 算 句 子 之 间 的相 似度 得分
,
完 成 类 目映 射
.
在 人 工 标注
评论