暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
人工智能63:再探文本FADT选股-20221028-华泰证券-43页.pdf
718
44页
16次
2022-11-17
免费下载
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。
1
证券研究报告
金工
人工智能 63:再探文本 FADT 选股
研究员
林晓明
SAC No. S0570516010001
SFC No. BPY421
linxiaoming@htsc.com
+(86) 755 8208 0134
研究员
李子钰
SAC No. S0570519110003
SFC No. BRV743
liziyu@htsc.com
+(86) 755 2398 7436
研究员
何康,PhD
SAC No. S0570520080004
SFC No. BRB318
hekang@htsc.com
+(86) 21 2897 2039
联系人
陈伟
SAC No. S0570121070169
chenwei018440@htsc.com
+(86) 21 2897 2228
两版本文本因子多头第一层净值
Wind
20090123-20220930
不等权主动量化选股组合净值
Wind
20090123-20220930
不等权主动量化选股组合超额净
资料来源:Wind,朝阳永续,华泰研究,基准中证 500
回测期:20090123-20220930
深度研究
人工智能 63:分析师研报文本挖掘框架升级
本文承接前期研究文本 FADT 选股,重点关注如何对文本因子本身进行升
级。前期研究的核心思路是在特定场景下,以分析师研报文本的词频向量为
特征,以研报发布前后两日个股超额收益为标签,引导 XGBoost 模型学习
研报情绪蕴含的超额信息。在本文中我们将词频向量替换为 FinBERT 隐藏
层编码的特征向量作为后续浅度学习模型的输入,隐藏层编码蕴含更丰富的
文本语义信息,相比词频信息损失更少,以此带来更显著的 alpha 升。
引入 FinBERT 编码以后文本因子收益提升明
的文年化 22.87%提升至
27.50%,相对中证 500 14.75% 19.19%(回测期
20090123-20220930升较为明显。针对改进后的因子我们展示了三组
应用案例:1构建 25 只股票的主动量化不等权选股组合,年化收益 45.90%
相对中证 500 年化超额 36.35%2)限制在总市值 100 亿以上的股票池中
用文本因子构建等权精选组合Top20 年化收益 31.12%相对中证 500
化超额 23.94%3构建沪深 300 精选 30 不等权组合年化收益 17.58%
相对沪深 300 化超额 12.44%
FinBERT 是专门针对金融领域训练的 BERT,使用 Adapter-BERT 微调
BERT Google 2018 年提出的自然语言处理模型,超过 11 项的 NLP
使 2020
FinBERT 模型,对于金融领域任务具有更强的针对性,在金融领域的相关
任务中表现均超过原版 BERT。由于 FinBERT 微调参数量超过 1 亿,我们
使用 Adapter-BERT 技术在基本不影响模型微调性能的前提下,低微调参
数至约三百万,提升模型的训练效率。
模型升级:FinBERT 微调+CLS 层编码+XGBoost 二次训练
使用 FinBERT 来对分析师研报文本进行向量编码并构建文本因子,主要包
括三个步骤:1使用万得新闻舆情文本对 FinBERT 进行微调,使得 FinBERT
的分类准确率可以达到 95%上;2)使 FinBERT 分析师研报文本进
行编码,将预处理过的研报文本输入 FinBERT提取 CLS 层输出作为研
报的特征向量;3)使用上述编码好的特征向量替代词频向量,使用与原版
模型同样的标签,引导 XGBoost 模型样本内进行交叉验证训练,样本外预
测并构建 forecast_adj_txt_bert 子。
多组扩展测试表明过拟合概率低,更充分的语义理解带来显著 alpha 提升
同样我们还是关注模型升级过程中是否有过拟合的问题。除了基础参数,
们展示了五组扩展测试:1文本预处理时截断和分段的比较2FinBERT
微调与不微调的比较;3CLS 层编码与全连接层编码的比较;4CLS
编码与词频特征结合是否有提升;5仅使用 FinBERT 微调的效果。整体来
看前四组测试都有效,模型升级大概率不是偶然因素导致的过拟合。
与传统因子相关性低,且不同场景下文本因子均有明显提
此外我们讨论 forecast_adj_txt_bert 因子与 Barra 因子及传统多因子的相
关性,发现相关性较低,alpha 特异性较强。最后我们在不同的场景下讨论
了文本因子升级的效果,发现在业绩发布场景、卖方分析师评级调整场景下
文本因子均有明显提升,再次说明模型升级较为稳健。
风险提示:过机器学习模型构建选股策略是历史经验的总结存在失效的
可能。人工智能模型可解释程度较低使用须谨慎量化因子历史结果不能
预测未来,互联网开源模型需注意可复现性,敬请知悉。
0
10
20
30
40
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022
FinBERT
编码版
词频向量版
-200%
-160%
-120%
-80%
-40%
0%
0
50
100
150
200
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022
最大回撤(右轴)
不等权增强组合回测净
中证500净值
-50%
-40%
-30%
-20%
-10%
0%
0
20
40
60
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022
超额最大回撤(右轴)
相对中证500净值
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。
2
金工研究
正文目录
分析师研报文本挖掘框架升级 ...................................................................................................................................... 3
研究回顾................................................................................................................................................................ 3
文本挖掘框架的升级之路 ...................................................................................................................................... 4
逻辑瑕疵:分词的形式难以融入上下文关系 ................................................................................................. 4
改进方案:引入预训练自然语言处理模型 ..................................................................................................... 4
BERTFinBERT Adapter-BERT ........................................................................................................................... 8
BERT 模型介绍 ..................................................................................................................................................... 8
BERT 网络结构及输入 .................................................................................................................................. 8
BERT 预训练任务 ........................................................................................................................................ 10
FinBERT 模型介绍 .............................................................................................................................................. 11
Adapter-BERT..................................................................................................................................................... 12
数据处理与模型训练 ................................................................................................................................................... 13
FinBERT 模型微调 .............................................................................................................................................. 13
新闻舆情数据展 ....................................................................................................................................... 13
FinBERT 微调 ............................................................................................................................................. 13
FinBERT 编码与二次训练 ................................................................................................................................... 15
FinBERT 研报编码 ...................................................................................................................................... 15
XGBoost 模型训 ...................................................................................................................................... 16
数据实证:从更充分的语义理解到更显著的 Alpha 提升 ........................................................................................... 18
基础模型实证 ...................................................................................................................................................... 18
扩展测试一:文本截断和分段的比较 .................................................................................................................. 20
扩展测试二:是否有必要对 FinBERT 进行微调? .............................................................................................. 22
扩展测试三:CLS 编码与全连接层编码对比 ...................................................................................................... 23
扩展测试四:CLS 编码与词频特征结 .............................................................................................................. 24
扩展测试五:仅使用 FinBERT 微调 .................................................................................................................... 25
Forecast_adj_txt_bert 因子讨论.......................................................................................................................... 26
不同场景下的文本因子升级 ........................................................................................................................................ 28
业绩发布.............................................................................................................................................................. 28
评级调整.............................................................................................................................................................. 29
文本因子的应用案例 ................................................................................................................................................... 31
案例一:主动量化选股组合................................................................................................................................. 31
等权增强组合............................................................................................................................................... 31
不等权增强组合 ........................................................................................................................................... 33
加入市值限制的主动量化选股 ..................................................................................................................... 35
案例二:沪深 300 内选股.................................................................................................................................... 36
总结与展望.................................................................................................................................................................. 38
风险提示.............................................................................................................................................................. 39
参考文献 ..................................................................................................................................................................... 40
of 44
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜