【视频】量化交易陷阱和R语言改进股票配对交易策略分析中国股市投资组合

拓端数据部落 2023-01-04

734

教程全文下载链接：http://tecdat.cn/?p=22034

计算能力的指数级增长，以及量化社区（日益增长的兴趣使量化基金成为投资者蜂拥而至的最热门领域（点击文末“阅读原文”获取完整代码数据）。

视频教程

量化交易涵盖了相当广泛的交易策略（从大数据分析到高频交易）。出于本文的目的，我们将重点关注量化分析和数据科学，因为它们被不同类型的交易者广泛使用。

根据我们在量化交易方面的经验，在构建量化交易策略时有几个主要陷阱：

了解统计/概率。
模型实现。
策略回测/模拟。
风险管理。

理解统计和概率

统计分析是数据科学和量化交易的基础。当我们分析数据（尤其是时间序列）时，如果我们对统计/概率（和统计概念）没有很好的理解，我们很容易陷入各种陷阱。

正态分布

到目前为止，正态分布的假设是我们在金融资产动态建模方面所能做出的最弱假设。关于金融资产时间序列的正态性假设已经发表了许多论文，但是，由于缺乏更好的选择，我们使用高斯（正态）分布，因为它使我们能够很容易地分析数据。知道“正态性”的假设是弱的，我们应该以同样的方式对待正态分布的性质（即偏斜收益、肥尾）。假设收益的分布将落在钟形曲线之下，当收益出现 3+ 个标准差时，通常会导致巨大的意外。

正如我们所理解的，“正态性”有时可能是一个弱假设，我们可以使用已实现的分布（采用不同的时间框架）并查看它如何符合正态分布，因此我们可以评估资产的回报分布有多正常.

模型实现

在我们了解了统计分析中可能存在的陷阱之后，我们转向交易的核心——我们的模型。虽然在实施我们的模型/策略时有很多方法可能会失败，但我们将专注于我们可能犯的最常见（也是最关键）的错误。避免这些陷阱将大大有助于确保我们模型的适应性和稳健性。

过拟合/欠拟合

模型拟合既是一门艺术，也是一门科学。在拟合我们的模型时，我们需要在模型过拟合和模型欠拟合之间找到一条细线。这两种偏差最有可能导致我们模型的性能不佳。

_过拟合——_当我们的模型在捕捉动态时非常精确时会导致过拟合。通常过拟合模型会涉及到相对大量的解释变量。

欠拟合是过拟合的镜像问题。当模型太简单（变量太少）时会导致欠拟合，这使得它在捕捉动态时不灵活。

USDJPY 1 周 RVol 与 UDSJPY 1 个月 RVol 回归。

在拟合模型时，我们的目标是使用最少的变量，但具有最大的预测能力。其背后的想法是，我们希望将模型校准到最低限度，同时拥有一个能够产生稳健结果的模型。我们添加的变量越多，我们需要进行的校准就越多，它能够快速应对不断变化的市场的能力就越差。

异常值处理

无论我们喜欢与否，异常值观察都是我们数据系列的一部分。我们不能忽略这些异常值，但是，我们需要知道如何处理它们，这样我们的模型才不会因极端观察而出现偏差。显然，我们需要区分异常值的类型——如果我们发现观察明显是错误的（数据错误），我们可以删除它，但是，如果它是有效的观察，我们应该接受它并让我们的模型处理它。

模型模拟

现在我们已经有了一个基于稳健统计/数据分析的健全模型，我们希望对历史（或生成的）数据进行回测（或模拟）。这是我们模型开发的关键部分，因为这是我们可以看到（和分析）我们的模型在受控环境中如何表现的关键。尽管在这个阶段犯错误的方法更少（与之前的阶段相比），但这些错误可能会付出高昂的代价，因为我们将无法发现模型的弱点（或问题）。

测试不同的市场区制状态

当我们构建模型时，我们希望它在 100% 的时间内表现良好。不幸的是，这几乎是不可能的，因为不同的策略将在不同的市场区制中表现良好（想想波动市场中的趋势跟踪策略）。我们可以确定模型表现不佳的点。为了让我们识别这些弱点，我们应该在不同的市场区制下测试我们的策略（区制转换模型是识别这些区制的好方法）

相关视频

R语言改进的股票配对交易策略分析SPY-TLT组合和中国股市投资组合

相信大家都听说过股票和债券的多元化投资组合。改进的股票配对交易策略基本上使用了一种前进的方法（参考文章中的概念），即最大化夏普比率，偏向于波动率而不是收益率。也就是说，它使用72天的移动窗口来最大化投资组合的不同权重配置之间的总收益，标准差提高到52的幂。说得通俗一点，在1的幂数下，这是基本的夏普比率，在0的幂数下，只是一个动量最大化的算法。

相关视频

这个策略的过程很简单:每个月重新平衡SPY和TLT之间5%的倍数，之前最大化了以下数量(在72天窗口中返回波动率^2.5)。

SPY和TLT组合

以下是获取数据和计算必要数据的代码:

require(quantmod)

getSymbols(c("SPY", "TLT"), from="1990-01-01")

for(i in 1:21) 

  weightSPY <- (i-1)*.05

  config <- Return.portfolio(R = returns, weights=c(weightSPY, weightTLT)

  period <- 72

接下来，建立权重的代码：

 weights <- t(apply(monthlyModSharpe, 1, findMax))


weights[is.na(weights)] <- 0

也就是说，在每个重新平衡的日期(每月的月末)，简单地采用使每月修改的夏普比率计算最大化的设置。接下来是收益表现:

Performance(stratRets)

结果如下:

具有以下股票曲线：

并不完美，但相比之下，它的成分如何呢，我们来看看。

点击标题查阅往期内容

R语言对S＆P500股票指数进行ARIMA + GARCH交易策略

左右滑动查看更多

apply.yearly(Components, Return.cumulative)

以下是一些常见的统计数据:

简而言之，这一策略的表现似乎远远好于上述两种成分。我们来看看股票曲线的比较是否反映了这一点。

事实上，虽然它确实在危机中出现了下跌，但当时这两个工具都在下跌，所以看起来这个策略在糟糕的情况下取得了最好的效果.以下是年度收益。

yearly(Return.cumulative)

然而，从2002年整体上看，虽然该策略很少会像两个中更好的表现一样，但它总是比两个中更差的表现出色--不仅如此，即使在一个表现差的时候，该策略在回测的每一年中都取得了积极的表现，例如2008年的SPY，以及2009年和2013年的TLT。以下是SPY在策略中的权重。

 weightSPY <- do.call(rbind, weightSPY)


TimeSeries(alig, date.format="%Y", ylab="SPY权重", main="SPY-TLT配对中SPY的权重")

贵州茅台和民生银行组合

股票数据获取及整理

## [1] "GZMT" "MSYH"

组合收益表现结果如下:

加入比较项-非组合下的单只表现

年化收益率比较

通过累积收益率、日收益率和最大回撤率，以及年化收益率比较，可以发现采用优化方法的投资组合明显优于传统的投资策略。

现在，虽然这对某些人来说可能是一个独立的策略，但在我看来，动态地重新加权两个具有负相关性的收益流，与它们形成的成分相比，可能会产生一些较好的结果。此外，模拟实际组合收益率所采用的方法很有趣，不是简单地依靠一个数字来总结两种工具之间的关系，毫无疑问，这种方法作为一种一般的前进方法，有着广泛的应用。

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《R语言改进的股票配对交易策略分析SPY-TLT组合和中国股市投资组合》。

本文中的股票数据分享到会员群，扫描下面二维码即可加群！

点击标题查阅往期内容

使用R语言对S＆P500股票指数进行ARIMA + GARCH交易策略

R语言量化交易RSI策略：使用支持向量机SVM

R语言资产配置: 季度战术资产配置策略研究

R语言动量交易策略分析调整后的数据

TMA三均线股票期货高频交易策略的R语言实现

R语言时间序列：ARIMA GARCH模型的交易策略在外汇市场预测应用

R语言基于Garch波动率预测的区制转移交易策略

r语言多均线股票价格量化策略回测

使用R语言对S＆P500股票指数进行ARIMA + GARCH交易策略

Python基于粒子群优化的投资组合优化研究

R语言Fama-French三因子模型实际应用：优化投资组合

R语言动量和马科维茨Markowitz投资组合(Portfolio)模型实现

Python计算股票投资组合的风险价值（VaR）

R语言Markowitz马克维茨投资组合理论分析和可视化

R语言中的广义线性模型（GLM）和广义相加模型（GAM）：多元（平滑）回归分

PYTHON用RNN神经网络LSTM优化EMD经验模态分解交易策略分析股票价格MACD

R语言深度学习：用keras神经网络回归模型预测时间序列数据

【视频】CNN（卷积神经网络）模型以及R语言实现回归数据分析

Python TensorFlow循环神经网络RNN-LSTM神经网络预测股票市场价格时间序列和MSE评估准确性

数据分享|PYTHON用KERAS的LSTM神经网络进行时间序列预测天然气价格例子

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

Matlab用深度学习长短期记忆（LSTM）神经网络对文本数据进行分类

RNN循环神经网络、LSTM长短期记忆网络实现时间序列长期利率预测

结合新冠疫情COVID-19股票价格预测：ARIMA，KNN和神经网络时间序列分析

深度学习：Keras使用神经网络进行简单文本分类分析新闻组数据

用PyTorch机器学习神经网络分类预测银行客户流失模型

PYTHON用LSTM长短期记忆神经网络的参数优化方法预测时间序列洗发水销售数据

Python用Keras神经网络序列模型回归拟合预测、准确度检查和结果可视化

Python用LSTM长短期记忆神经网络对不稳定降雨量时间序列进行预测分析

R语言中的神经网络预测时间序列：多层感知器（MLP）和极限学习机（ELM）数据分析报告

R语言深度学习：用keras神经网络回归模型预测时间序列数据

Matlab用深度学习长短期记忆（LSTM）神经网络对文本数据进行分类

R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据（MNIST）

MATLAB中用BP神经网络预测人体脂肪百分比数据

Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

R语言实现CNN（卷积神经网络）模型进行回归数据分析

SAS使用鸢尾花(iris)数据集训练人工神经网络(ANN)模型

【视频】R语言实现CNN（卷积神经网络）模型进行回归数据分析

Python使用神经网络进行简单文本分类

R语言用神经网络改进Nelson-Siegel模型拟合收益率曲线分析

R语言基于递归神经网络RNN的温度时间序列预测

R语言神经网络模型预测车辆数量时间序列

R语言中的BP神经网络模型分析学生成绩

matlab使用长短期记忆（LSTM）神经网络对序列数据进行分类

R语言实现拟合神经网络预测和结果可视化

用R语言实现神经网络预测股票实例

使用PYTHON中KERAS的LSTM递归神经网络进行时间序列预测

python用于NLP的seq2seq模型实例:用Keras实现神经网络机器翻译

用于NLP的Python：使用Keras的多标签文本LSTM神经网络分类

股票量化交易时间序列分析量化分析神经网络模型

文章转载自拓端数据部落，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。