导读:近年来,各学科及企业在机器学习、深度学习、知识图谱等人工智能方面的研究正如火如荼地展开,图书馆也从信息化向智能化转变。当下图书馆信息化建设水平高,读者与图书馆交互数据充分,积极运用数据挖掘、人工智能技术,可以加速图书馆智能化转变的进程,有助于进一步满足读者需求、提高图书馆资源使用效率,从而提升智能化服务水平。
目前,图书馆的大数据分析与智能化应用水平难以满足用户精准推荐、知识服务等需求。本文运用图数据库技术构建复杂网络,探索图数据库在用户画像、推荐系统与智能问答等图书馆智能化应用领域的应用。
复杂网络依托于图数据库进行存储和应用。Galaxybase作为国内首款拥有全自主知识产权的企业级图数据库,以节点、关系为基础数据结构,能够描述绝大部分图的使用场景。
建模
Galaxybase图数据库的底层存储具有以下特征:
包含节点和关系;
节点和关系均有属性;
关系可以是单向或双向。
图书馆的网络结构可以抽象为节点(读者、图书、作者等实体)和关系(借阅关系、写作关系等)。点类型和点属性如下表所示。
| 点类型 | 点属性 |
|---|---|
| 读者 | 外部唯一标识(学号)、姓名、学院、借书量、读者类型 |
| 图书 | 外部唯一标识(ISBN号)、书名、作者名、出版社、入库时间 |
| 作者 | 外部唯一标识(作者编号)、作者名 |
边类型、起始点类型、终止点类型、边属性如下表所示。
| 边类型 | 起始点类型 | 终止点类型 | 边属性 |
|---|---|---|---|
| 借阅 | 读者 | 图书 | 借出时间、还书时间、总天数、逾期 |
| 写作 | 作者 | 图书 | / |
建模后如下图所示。





将上面建立的图数据库模型实例化,可以得到图书馆资源信息实例图。

更多建模方式请参考大数据时代建模——图数据库建模_创邻科技-CSDN博客。
数据导入
建立图模型后,Galaxybase支持一键导入各种类型的数据文件,例如:HDFS、MySQL和CSV等各类数据源。导入方式有Cypher语句导入、galaxybase-load工具导入。
Galaxybase图数据库集成可视化前端,开启可视化图前端服务后,图数据库的查询和可视化操作在前端页面实现。
Cypher语句导入
图数据库数据导入有多种方式,例如:使用Cypher “LOAD CSV” 、“CREATE”语句。
LOAD CSV WITH HEADERS FROM 'http://www.chuanglintech.com/public/company.csv' AS line
CREATE (:company { name: line.Name, year: toInteger(line.Year)})
导入命令如下图所示。

galaxybase-load工具导入
使用命令行工具“galaxybase-load批量加载工具”,将整理好的CSV文件导入进库,速度能达到57万(点数量+边数量)/s。
应用场景
使用图数据库能够实现图书馆多平台大数据融合,将多元异构数据进行连接和整合,对来源不同、标准不同的数据进行统一管理,使数据挖掘起到“1+1>2”的效果。
在图书馆大数据中运用图数据库技术融合读者个人信息、浏览记录、借阅记录等多元数据进行综合分析能够增进对用户的了解,精准把我读者属性与偏好,能够充分运用到用户画像、个性化推荐以及知识问答等智慧化服务领域。
用户画像
用户画像是一种从海量数据中获取的、由用户信息构成的形象集合。图书馆场景下的用户画像存在数据稀疏、缺乏互联的问题,没有充分利用数据的关联性。
建立包含了用户、图书、交互等数据资源的图数据库,运用社区发现算法可以实现用户的聚类,运用中心性算法(如PageRank)可实现读者节点影响力分析等,准确把握读者之间的潜在关联与特征,提升图书馆服务质量、精准营销。

| 读者用户画像: |
|---|
| 读者基本属性:姓名、性别、年龄、居住城市等 读者社会属性:专业、年纪、班级、 成绩等 读者阅读偏好:偏好书籍类型、借书频次、借阅时长、借阅周期等 读者行为偏好:浏览记录、查询记录、闸机信息等 |
个性化推荐
由于大多高校图书馆缺乏读者对图书的打分数据,仅包含借阅数据,而读者的专业、学院以及图书的类别、分类号等属性相对稳定,基于内容的推荐难以实现动态、千人千面的推荐列表。
根据同一作者的书籍进行相似性推荐、基于图书的分类号实现基于内容的推荐、以及发现阅读偏好相近的其他读者的阅读列表实现聚类推荐等,如下图所示。
读者1借阅了图书B,根据图书B的书籍类别(短篇小说),为读者1推荐了图书D;根据图书B的作者姓名,为读者1推荐了图书C;根据读者1和读者2的相似阅读偏好,为读者1推荐了图书F。

智能问答
在人工智能等技术日益发展的背景下,问答系统是图书馆智能化参考咨询问答服务的技术基础。问答系统的实现思路是将自然语言中的语义关系表示为图,从而将自然语言问句转化为子图匹配的问题,如下图所示。

-END
感兴趣的朋友可以关注我们的微信公众号(搜索:创邻科技),了解更多图数据库前沿技术。




