暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
基于PSP_HDP主题模型的非结构化经济指标挖掘-张奕韬 , 万常选 , 刘喜平 , 江腾蛟 , 刘德喜 , 廖国琼.pdf
114
21页
0次
2022-05-24
免费下载
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2020,31(3):845865 [doi: 10.13328/j.cnki.jos.005898] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
基于 PSP_HDP 主题模型的非结构化经济指标挖掘
张奕韬
1,2, 3
,
万常选
1,3
,
刘喜平
1,3
,
江腾蛟
1,3
,
刘德喜
1,3
,
廖国琼
1,3
1
(江西财经大学 信息管理学院,江西 南昌 330013)
2
(华东交通大学 软件学院,江西 南昌 330013)
3
(数据与知识工程江西省高校重点实验室(江西财经大学),江西 南昌 330013)
通讯作者: 万常选, E-mail: wanchangxuan@263.net
: 随着经济活动数据的不断丰富,互联网平台上产生了大量的财经文本,其中蕴含了经济领域发展状况的
影响因素.如何从这些财经文本中有效地挖掘与经济有关的经济要素,是实现非结构化数据在经济研究中应用的关
.根据人工构建非结构化经济指标的局限性,以及主题模型在非结构化经济指标挖掘中存在的问题,结合已有经
领域分类标准、词语之间的语义关系和词语对主题的代表性,定义了文档的领域隶属度、词语与主题的语义相关度
和词语对主题的贡献度,用于分别描述 CRF(Chinese restaurant franchise)中餐厅的菜肴风格、顾客之间对菜肴要求
的一致程度和顾客对菜肴的专一程度;结合文档领域属性、词语语义和词语在主题中的出现情况,提出了 PSP_HDP
(combining documents’ domain properties, word semantics and words’ presences in topics with HDP)主题模型.由于
PSP_HDP 主题模型改进了文档-主题与主题-词语的分配过程,从而提高了经济主题的区分度和辨识度,可以更有效
地挖掘与经济有关的经济主题和经济要素词.实验结果表明:提出的 PSP_HDP 主题模型不仅在主题多样性、内容困
惑度和模型复杂度等评价指标方面的整体性能优于 HDP 主题模型,而且在非结构化经济指标挖掘和经济要素词抽
取方面能够得到区分度更好、辨识度更高的结果.
关键词: HDP 主题模型;经济领域分类标准;语义关系;非结构化经济指标;经济要素词
中图法分类号: TP18
中文引用格式: 张奕韬,万常选,刘喜平,江腾,刘德喜,廖国琼.基于 PSP_HDP 主题模型的非结构化经济指标挖掘.软件学报,
2020,31(3):8458 65. http://www.jos.org.cn/1000-9825/5898.htm
英文引用格式: Zhang YT, Wan CX, Liu XP, Jiang TJ, Liu DX, Liao GQ. Mining unstructured economic indicators based on
PSP_HDP topic model. Ruan Jian Xue Bao/Journal of Software, 2020,31(3):845865 (in Chinese). http://www.jos.org.cn/1000-
9825/5898.htm
Mining Un struc tured Economic I ndica tors Ba sed o n PSP_H DP Topic Model
ZHANG Yi-Tao
1,2,3
, WAN Chang-Xuan
1,3
, LIU Xi-Ping
1,3
, JIANG Teng-Jiao
1,3
, LIU De-Xi
1,3
,
LIAO Guo-Qi ong
1,3
1
(School of Information Management, Jiangxi University of Fin ance and Economics, Nanchang 330013, China)
2
(School of Software, East China Ji aotong University, Nanchang 330013, China)
3
(Jiangxi Key Laboratory of Data and Knowledge Engineering (Jiangxi University of Finance and Economics), Nanchang 330013, China)
基金项目: 国家自然科学基金(61972184, 61562032, 61662027, 61762042); 江西省自然科学基金(20152ACB20003)
Foundation item: National Natural Science Foundation of China (61972184, 61562032, 61662027, 61762042); Natural Science
Foundation of Jiangxi Province of China (20152 ACB20003)
本文由人工智能赋能的数据管理、分析与系统专刊特约编辑李战怀教授、于戈教授和杨晓春教授推荐.
收稿时间:
2019-07-05; 修改时间: 2019-09-10; 采用时间: 2019-11-25; jos 在线出版时间: 2020-01-10
CNKI 网络优先出版: 2020-01-10 13:34:24, http://kns.cnki.net/kcms/d etail/11.2560.TP.20200110.1333.002 .html
846
Journal of Software 软件学报 Vol.31, No.3, March 2020
Abstra ct : With the increasing enrichment of economic activity data, a large number of financial texts have eme rged on Intern et, which
contains the influence factors of the economic development. How to mine these economic factors from these texts is the key to conduct
economic analysis based on unstructured data. Due to the limitation of manual selection of economic indicators, and the inaccuracy of
modelling economic indi cators in unstructured texts, th e CRF (Chinese restaurant franchise) allocation processes in HDP topic model are
extended to a more efficient pattern. In order to describe the dish style in a restaurant, the existing economic taxonomies are used to
determine the domain membership of a document. The semantic similarity between words is exploited to define the semantic relevance
between words and topics, which reflect the s imilarity of customers' requirements for dishes. For each word, its representativeness of each
topic is employed to evaluate its contribution to the topic, which explains the loyalty of a customer to each dish. By combining
documents’ domain properties, word semantics and words’ presence in topics with HDP topic model, a novel model, PSP_HDP topic
model, is proposed. As the PSP_HDP topic model improves documents-topics and topics-words allocation processes, it increases the
accuracy of identifying economic topics and distinctiveness of the topics, which leads to a more effective mining of economic topics and
economic factors. Experimental results show that the proposed model not only achieves a better performance in terms of topic diversity,
topic perplexity and topic complexity, but also is effective in finding more cohesive unstructured economic indicators and economic
factors.
Key words: HDP topic model; economic taxonomy; s emantic relevance; unstructured economic indicator; econ omic factor
随着经济活动数据在数量、质量和表现形式上的不断丰富,以及自然语言处理、数据挖掘和机器学习等技
术的迅速发展,经济研究不仅仅局限于结构化数据,也认识到非结构化数据的重要作用.文本数据是非结构化数
据的主要形式之一,互联网平台中存在大量与财经领域相关的文本数据(财经文本), 其中蕴含了个人或媒体对
经济运行和发展中所遇到关键问题的观点和态度,间接反映了经济在投资、消费、进出口、政府财政和人口就
业等方面的状况;同时,这类信息的产生和传播速度快,可实时反映经济的发展现状.因此,财经文本在获取经济
信息、分析经济实时状况、辅助经济预测等方面有着独特的优势.在这种应用需求背景下,基于非结构化数据
的经济研究面临了前所未有的机遇和挑战.
研究者证明:通过文本挖掘可发现与宏观经济有关的潜在影响要素(经济要素或经济要素词),利用搜索指
数或情感指数量化这些经济要,帮助预测经济发展趋势,弥补传统统计指标的时滞性和数据有意造假等问题
带来的影响
[1]
.已有研究主要通过人工筛选或结合 LDA 主题模型结果、手工选择这些经济要素词
[2,3]
,再基于领
域类别或主题划分,构建经济指标与经济要素词之间的概念隶属关系,称为非结构化经济指标(体系),最后,通过
经济要素词的搜索指数量化非结构化经济指标,用于经济分析和预测.针对以上分析,实现非结构化数据在经济
研究中的应用需要经过 3 个步骤:(1) 经济要素词的抽取和非结构化经济指标体系的构建;(2) 非结构化经济指
标体系的量化;(3) 非结构化经济指标量化值在经济预测模型中的应用.其中,经济要素词的抽取和非结构化经
济指标体系的构建,是研究的基础和关键步骤,也是本文主要关注点.
在经济要素词抽取和非结构化经济指标体系构建方面,已有研究主要通过手工或半自动的方式实现,存在
抽取效率低、工作量大、人工成本高、数据覆盖率低以及领域的可移植性弱等缺陷.基于主题模型的主题-
语分析可对应于非结构化经济指标体系构建和经济要素词抽取,常用的主题模型包括 LDA(latent dirichlet
allocation) HDP(hierarchical dirichlet process)模型.由于 LDA 主题模型对主题数目有很大依赖性
[4]
,本文将采
HD P 主题模型解决这个问题,实现非结构化经济指标体系构建和经济要素词抽取过程的全自动化.
然而,在经济领域中直接使用 HDP 主题模型生成经济主题、抽取经济要素词,存在如下主要问题:(1) 主题模
型生成的主题无法体现经济主题的领域性;(2) 经济要素词无法准确对应到经济主题中,经济主题涵义不明确;
(3) 很多经济要素词是中低频词,无法被有效地抽取出来.导致这些问题的根本原因是:在主题模型中,文档主题
分布是由词语的共现情况决定,主题词是通过统计词语在文档中出现的频繁程度确定.所以,本文预期目标是结
合财经领域的的分类信息提高文档主题与经济主题的匹配程度,利用词语之间的语义相似性改善词语在相同
领域的共现频率,并基于词语的逆主题频率改进经济要素词在经济主题中的出现频率.
为了提高模型的领域适用性,本文将结合财经领域背景知识和词语之间的语义关系,改进 HDP 主题模型的
CRF(Chinese restaurant franchise)构造过程,实现财经文本中非结构化经济指标体系的自动构建和经济要素词
of 21
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜