分析师研报文本挖掘框架升级 ...................................................................................................................................... 3
研究回顾................................................................................................................................................................ 3
文本挖掘框架的升级之路 ...................................................................................................................................... 4
逻辑瑕疵:分词的形式难以融入上下文关系 ................................................................................................. 4
改进方案:引入预训练自然语言处理模型 ..................................................................................................... 4
BERT、FinBERT 和 Adapter-BERT ........................................................................................................................... 8
BERT 模型介绍 ..................................................................................................................................................... 8
BERT 网络结构及输入 .................................................................................................................................. 8
BERT 预训练任务 ........................................................................................................................................ 10
FinBERT 模型介绍 .............................................................................................................................................. 11
Adapter-BERT..................................................................................................................................................... 12
数据处理与模型训练 ................................................................................................................................................... 13
FinBERT 模型微调 .............................................................................................................................................. 13
新闻舆情数据展示 ....................................................................................................................................... 13
FinBERT 微调 ............................................................................................................................................. 13
FinBERT 编码与二次训练 ................................................................................................................................... 15
FinBERT 研报编码 ...................................................................................................................................... 15
XGBoost 模型训练 ...................................................................................................................................... 16
数据实证:从更充分的语义理解到更显著的 Alpha 提升 ........................................................................................... 18
基础模型实证 ...................................................................................................................................................... 18
扩展测试一:文本截断和分段的比较 .................................................................................................................. 20
扩展测试二:是否有必要对 FinBERT 进行微调? .............................................................................................. 22
扩展测试三:CLS 编码与全连接层编码对比 ...................................................................................................... 23
扩展测试四:CLS 编码与词频特征结合 .............................................................................................................. 24
扩展测试五:仅使用 FinBERT 微调 .................................................................................................................... 25
Forecast_adj_txt_bert 因子讨论.......................................................................................................................... 26
不同场景下的文本因子升级 ........................................................................................................................................ 28
业绩发布.............................................................................................................................................................. 28
评级调整.............................................................................................................................................................. 29
文本因子的应用案例 ................................................................................................................................................... 31
案例一:主动量化选股组合................................................................................................................................. 31
等权增强组合............................................................................................................................................... 31
不等权增强组合 ........................................................................................................................................... 33
加入市值限制的主动量化选股 ..................................................................................................................... 35
案例二:沪深 300 内选股.................................................................................................................................... 36
总结与展望.................................................................................................................................................................. 38
风险提示.............................................................................................................................................................. 39
参考文献 ..................................................................................................................................................................... 40
评论