
计 算 机 研 究 与 发 展
DOI
:
10.7544∕issn1000G1239.2021.20200388
JournalofCom
p
uterResearchandDevelo
p
ment 58
(
2
):
338 355
,
2021
收稿日期
:
2020
-
06
-
08
;
修回日期
:
2020
-
08
-
07
基金项目
:
国家自然科学基金青年科学基金项目
(
61902135
);
国家自然科学基金创新群体项目
(
61821003
)
Thisworkwassu
pp
ortedb
y
theNationalNaturalScienceFoundationofChinaforYoun
g
Scientists
(
61902135
)
andtheInnovation
Grou
p
Pro
j
ectoftheNationalNaturalScienceFoundationofChina
(
61821003
)
.
通信作者
:
周可
(
zhke@hust.edu.cn
)
基于语义相似性的跨模态图文内容筛选存储机制研究
刘
渝
1
郭
婵
1
冯 树 耀
1
周
可
1
肖 志 立
2
1
(
华中科技大学武汉光电国家研究中心
武汉
430074
)
2
(
深圳市腾讯计算机系统有限公司技术工程事业群
广东深圳
518054
)
(
liu
_
y
u@hust.edu.cn
)
ContentSiftin
g
Stora
g
eMechanismforCrossGModalIma
g
eandTextDataBased
onSemanticSimilarit
y
LiuYu
1
,
GuoChan
1
,
Fen
g
Shu
y
ao
1
,
ZhouKe
1
,
andXiaoZhili
2
1
(
Wuhan NationalLaborator
yf
orO
p
toelectronics
,
Huazhon
g
Universit
y
o
f
ScienceandTechnolo
gy
,
Wuhan
430074
)
2
(
Technolo
gy
andEn
g
ineerin
g
Grou
p
,
TencentInc
.
,
Shenzhen
,
Guan
g
don
g
518054
)
Abstract Withtheex
p
losive
g
rowthofmultimediadata
,
thedataincloudbecomeshetero
g
eneous
andlar
g
e.Theconventionalstora
g
es
y
stemsservedfordataanal
y
sisfacethechallen
g
eoflon
g
read
latenc
y
duetothelackofsemanticmana
g
ementofdata.Tosolvethis
p
roblem
,
acrossGmodalima
g
e
andtextcontentsiftin
g
stora
g
e
(
CITCSS
)
mechanismis
p
ro
p
osed
,
whichsavesthereadbandwidthb
y
onl
y
readin
g
relevantdata.ThemechanismconsistsoftheoffGlineandonGlinesta
g
es.IntheoffGline
sta
g
e
,
thes
y
stemfirstusestheselfGsu
p
ervisedadversarialHashlearnin
g
al
g
orithmtolearnandma
p
thestoreddatatosimilarHashcodes.Then
,
theseHashcodesareconnectedb
y
Hammin
g
distances
andmana
g
edb
y
themetadatast
y
le.Intheim
p
lement
,
weuseNeo4
j
toconstructthesemanticHash
code
g
ra
p
h.Furthermore
,
weinsertstora
g
e
p
athsintothe
p
ro
p
ert
y
ofnodetoacceleratereadin
g
.In
theonGlinesta
g
e
,
ourmechanismfirstma
p
stheima
g
eortextre
p
resentedtheanal
y
sisre
q
uirement
intoHashcodesandsendsthemtothesemanticHashcode
g
ra
p
h.Then
,
therelevantdatawillbe
foundb
y
thesiftin
g
radiusonthe
g
ra
p
h
,
andreturnedtotheuserfinall
y
.Benefitin
g
from our
mechanism
,
stora
g
es
y
stemscan
p
erceiveand mana
g
esemanticinformationresultin
g
inadvance
serviceforanal
y
sis.Ex
p
erimentalresultson
p
ubliccrossGmodaldatasetsshow that CITCSScan
g
reatl
y
reducethereadlatenc
y
b
y
99.07%to99.77% withmorethan98% recallratecom
p
aredwith
conventionalsemanticstora
g
es
y
stems.
Ke
y
words semanticmana
g
ement
;
Hashcodemetadata
;
metadata
g
ra
p
h
;
stora
g
emechanism
;
read
bandwidth
摘
要
随着多媒体数据的爆发式增长
,
云端数 据呈现 出大规 模多模 态混合 并存的 特性
.
服务于 数据分
析的传统存储系统因为缺乏数据的语义管理而面 临读取 延时超 长的挑 战
.
针对图 像和文 本
2
种模态 数
据
,
在 传 统 存 储 系 统 之 上 提 出 一 种 跨 模 态 图 文 数 据 内 容 筛 选 存 储 机 制
(
crossGmodalima
g
eandtext
contentsiftin
g
stora
g
e
,
CITCSS
),
用于提供大规模在线相似 性内容 筛选服 务
,
从存储 系统层 面缓解 数
据分析时必须从存储中读出所有数据的 读带宽 压力
.
机制分 为离线 与 在线
2
个阶 段
.
离线 阶 段中
,
引入
评论