
846
Journal of Software 软件学报 Vol.31, No.3, March 2020
Abstra ct : With the increasing enrichment of economic activity data, a large number of financial texts have eme rged on Intern et, which
contains the influence factors of the economic development. How to mine these economic factors from these texts is the key to conduct
economic analysis based on unstructured data. Due to the limitation of manual selection of economic indicators, and the inaccuracy of
modelling economic indi cators in unstructured texts, th e CRF (Chinese restaurant franchise) allocation processes in HDP topic model are
extended to a more efficient pattern. In order to describe the dish style in a restaurant, the existing economic taxonomies are used to
determine the domain membership of a document. The semantic similarity between words is exploited to define the semantic relevance
between words and topics, which reflect the s imilarity of customers' requirements for dishes. For each word, its representativeness of each
topic is employed to evaluate its contribution to the topic, which explains the loyalty of a customer to each dish. By combining
documents’ domain properties, word semantics and words’ presence in topics with HDP topic model, a novel model, PSP_HDP topic
model, is proposed. As the PSP_HDP topic model improves documents-topics and topics-words allocation processes, it increases the
accuracy of identifying economic topics and distinctiveness of the topics, which leads to a more effective mining of economic topics and
economic factors. Experimental results show that the proposed model not only achieves a better performance in terms of topic diversity,
topic perplexity and topic complexity, but also is effective in finding more cohesive unstructured economic indicators and economic
factors.
Key words: HDP topic model; economic taxonomy; s emantic relevance; unstructured economic indicator; econ omic factor
随着经济活动数据在数量、质量和表现形式上的不断丰富,以及自然语言处理、数据挖掘和机器学习等技
术的迅速发展,经济研究不仅仅局限于结构化数据,也认识到非结构化数据的重要作用.文本数据是非结构化数
据的主要形式之一,互联网平台中存在大量与财经领域相关的文本数据(财经文本), 其中蕴含了个人或媒体对
经济运行和发展中所遇到关键问题的观点和态度,间接反映了经济在投资、消费、进出口、政府财政和人口就
业等方面的状况;同时,这类信息的产生和传播速度快,可实时反映经济的发展现状.因此,财经文本在获取经济
信息、分析经济实时状况、辅助经济预测等方面有着独特的优势.在这种应用需求背景下,基于非结构化数据
的经济研究面临了前所未有的机遇和挑战.
研究者证明:通过文本挖掘可发现与宏观经济有关的潜在影响要素(经济要素或经济要素词),利用搜索指
数或情感指数量化这些经济要素,帮助预测经济发展趋势,弥补传统统计指标的时滞性和数据有意造假等问题
带来的影响
[1]
.已有研究主要通过人工筛选或结合 LDA 主题模型结果、手工选择这些经济要素词
[2,3]
,再基于领
域类别或主题划分,构建经济指标与经济要素词之间的概念隶属关系,称为非结构化经济指标(体系),最后,通过
经济要素词的搜索指数量化非结构化经济指标,用于经济分析和预测.针对以上分析,实现非结构化数据在经济
研究中的应用需要经过 3 个步骤:(1) 经济要素词的抽取和非结构化经济指标体系的构建;(2) 非结构化经济指
标体系的量化;(3) 非结构化经济指标量化值在经济预测模型中的应用.其中,经济要素词的抽取和非结构化经
济指标体系的构建,是研究的基础和关键步骤,也是本文主要关注点.
在经济要素词抽取和非结构化经济指标体系构建方面,已有研究主要通过手工或半自动的方式实现,存在
抽取效率低、工作量大、人工成本高、数据覆盖率低以及领域的可移植性弱等缺陷.基于主题模型的主题-词
语分析可对应于非结构化经济指标体系构建和经济要素词抽取,常用的主题模型包括 LDA(latent dirichlet
allocation)和 HDP(hierarchical dirichlet process)模型.由于 LDA 主题模型对主题数目有很大依赖性
[4]
,本文将采
用 HD P 主题模型解决这个问题,实现非结构化经济指标体系构建和经济要素词抽取过程的全自动化.
然而,在经济领域中直接使用 HDP 主题模型生成经济主题、抽取经济要素词,存在如下主要问题:(1) 主题模
型生成的主题无法体现经济主题的领域性;(2) 经济要素词无法准确对应到经济主题中,经济主题涵义不明确;
(3) 很多经济要素词是中低频词,无法被有效地抽取出来.导致这些问题的根本原因是:在主题模型中,文档主题
分布是由词语的共现情况决定,主题词是通过统计词语在文档中出现的频繁程度确定.所以,本文预期目标是结
合财经领域的的分类信息提高文档主题与经济主题的匹配程度,利用词语之间的语义相似性改善词语在相同
领域的共现频率,并基于词语的逆主题频率改进经济要素词在经济主题中的出现频率.
为了提高模型的领域适用性,本文将结合财经领域背景知识和词语之间的语义关系,改进 HDP 主题模型的
CRF(Chinese restaurant franchise)构造过程,实现财经文本中非结构化经济指标体系的自动构建和经济要素词
评论