Pandas中的窗口函数(rolling/expanding/ewm)

漫谈大数据与数据分析 2020-04-23

6099

Pandas中的窗口函数，包括移动窗口函数rolling，扩展窗口函数expanding，指数加权移动窗口函数ewm。

rolling：指定移动窗口的大小，每个窗口都是指定的固定大小。对于时间序列的索引，则可以传入特定的时间字符串，每个窗口是指定时间范围（详细可见前面时间序列方面的文章）。

每个窗口的范围从当前位置向前移动窗口大小的位置开始到当前位置。

示例：

df = pd.DataFrame({'B': [0, 1, 2, np.nan, 4]})
df
     B
0  0.0
1  1.0
2  2.0
3  NaN
4  4.0

不足指定窗口大小的窗口最终值为NaN：

df.rolling(2).sum()
     B
0  NaN
1  1.0
2  3.0
3  NaN
4  NaN

对于索引0,3,4三个窗口内窗口大小仅为1，小于设定的窗口2，所以为NaN。

但可以通过min_periods定义每个窗口的最小大小，窗口大小大于min_periods的都可以：

df.rolling(2, min_periods=1).sum()
     B
0  0.0
1  1.0
2  3.0
3  2.0
4  4.0

对于时间序列，可以传入特定格式的字符串作为窗口大小：

df = pd.DataFrame({'B': [0, 1, 2, np.nan, 4]},
                  index = [pd.Timestamp('20130101 09:00:00'),
                           pd.Timestamp('20130101 09:00:02'),
                           pd.Timestamp('20130101 09:00:03'),
                           pd.Timestamp('20130101 09:00:05'),
                           pd.Timestamp('20130101 09:00:06')])
df
                       B
2013-01-01 09:00:00  0.0
2013-01-01 09:00:02  1.0
2013-01-01 09:00:03  2.0
2013-01-01 09:00:05  NaN
2013-01-01 09:00:06  4.0


df.rolling('2s').sum()
                       B
2013-01-01 09:00:00  0.0
2013-01-01 09:00:02  1.0
2013-01-01 09:00:03  3.0
2013-01-01 09:00:05  NaN
2013-01-01 09:00:06  4.0

expanding：每个窗口的范围都是从序列起始处开始到当前位置。可以指定min_periods参数，默认为1：

df = pd.DataFrame({'B': [0, 1, 2, np.nan, 4]})
     B
0  0.0
1  1.0
2  2.0
3  NaN
4  4.0


df.expanding().sum()
     B
0  0.0
1  1.0
2  3.0
3  3.0
4  7.0


df.expanding(2).sum()
     B
0  NaN
1  1.0
2  3.0
3  3.0
4  7.0

ewm：参数较为复杂，具体请参考官方文档：

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.ewm.html

https://pandas.pydata.org/pandas-docs/stable/user_guide/computation.html#exponentially-weighted-windows

文末对ewm有简单的演示。

现在通过一个股票金融数据演示窗口函数。

移动窗口函数rolling

首先加载一些时间序列数据，将其重采样为工作日频率：

In [234]: close_px_all = pd.read_csv('examples/stock_px_2.csv',
   .....:                            parse_dates=True, index_col=0)


In [235]: close_px = close_px_all[['AAPL', 'MSFT', 'XOM']]
In [236]: close_px = close_px.resample('B').ffill()
In [237]: close_px.head(10)
Out [237]:
            AAPL  MSFT   XOM
2003-01-02  7.40  21.11  29.22
2003-01-03  7.45  21.14  29.24
2003-01-06  7.45  21.52  29.96
2003-01-07  7.43  21.93  28.95
2003-01-08  7.28  21.31  28.83
2003-01-09  7.34  21.93  29.44
2003-01-10  7.36  21.97  29.03
2003-01-13  7.32  22.16  28.91
2003-01-14  7.30  22.39  29.17
2003-01-15  7.22  22.11  28.77

rolling运算符类似于resample和groupby，可以在TimeSeries/DataFrame/window上调用它，下面通过rolling绘制苹果公司股价的250日均线图：

In [238]: close_px.AAPL.plot()
Out[238]:
 <matplotlib.axes._subplots.AxesSubplot at 0x7f2f2570cf98>


In [239]: close_px.AAPL.rolling(250).mean().plot()

表达式rolling(250)创建一个按照250天分组的滑动窗口对象。

默认情况下，rolling函数在时间序列开始处不足窗口期的那些数据值为NA，传递min_periods可以保证高于指定期数的窗口不为NA：

In [241]: appl_std250 = close_px.AAPL.rolling(250, min_periods=10).std()
In [242]: appl_std250[5:12]
Out[242]: 
2003-01-09         NaN
2003-01-10         NaN
2003-01-13         NaN
2003-01-14         NaN
2003-01-15    0.077496
2003-01-16    0.074760
2003-01-17    0.112368
Freq: B, Name: AAPL, dtype: float64

下面绘制了苹果公司250日每日回报标准差：

In [243]: appl_std250.plot()

对DataFrame调用rolling_xxx会将转换应用到所有的列上，下面以对数Y轴绘制各股价60日均线：

In [246]: close_px.rolling(60).mean().plot(logy=True)

rolling函数也可以接受一个指定固定大小的时间字符串，可以很方便的处理不规律的时间序列。例如，计算20天的滚动均值：

In [247]: close_px.rolling('20D').mean()
Out[247]:
                  AAPL       MSFT        XOM
2003-01-02    7.400000  21.110000  29.220000
2003-01-03    7.425000  21.125000  29.230000
2003-01-06    7.433333  21.256667  29.473333
2003-01-07    7.432500  21.425000  29.342500
2003-01-08    7.402000  21.402000  29.240000
2003-01-09    7.391667  21.490000  29.273333
2003-01-10    7.387143  21.558571  29.238571
2003-01-13    7.378750  21.633750  29.197500
2003-01-14    7.370000  21.717778  29.194444
2003-01-15    7.355000  21.757000  29.152000
...                ...        ...        ...
2011-10-03  398.002143  25.890714  72.413571
2011-10-04  396.802143  25.807857  72.427143
2011-10-05  395.751429  25.729286  72.422857
2011-10-06  394.099286  25.673571  72.375714
2011-10-07  392.479333  25.712000  72.454667
2011-10-10  389.351429  25.602143  72.527857
2011-10-11  388.505000  25.674286  72.835000
2011-10-12  388.531429  25.810000  73.400714
2011-10-13  388.826429  25.961429  73.905000
2011-10-14  391.038000  26.048667  74.185333
[2292 rows x 3 columns]

rolling二元移动窗口函数

有些统计运算（如相关系数和协方差）需要在两个时间序列上执行。例如，金融分析师常常对某只股票对某个参考指数（如标准普尔500指数）的相关系数感兴趣。

先计算准普尔500指数和感兴趣的股票的时间序列的百分数变化：

In [256]: spx_px = close_px_all['SPX']
In [257]: spx_rets = spx_px.pct_change()


In [258]: returns = close_px.pct_change()

调用rolling之后，corr聚合函数开始计算与spx_rets滚动相关系数，苹果股价 6个月的回报与标准普尔500指数的相关系数：

In [259]: corr = returns.AAPL.rolling(125, min_periods=100).corr(spx_rets)
In [260]: corr.plot()

也可以一次性计算多只股票与标准普尔500指数的相关系数，rolling_corr会自动计算TimeSeries（spx_rets）与DataFrame各列的相关系数：

In [262]: corr = returns.rolling(125, min_periods=100).corr(spx_rets)
In [263]: corr.plot()

3只股票6个月的回报与标准普尔500指数的相关系数：

rolling用户自定义的移动窗口函数

rolling_apply函数能够在移动窗口上应用自己编写的数组函数，只要该函数能从数组的各个片段中产生单个标量值即可。

下面计算250日窗口内，2%回报率的百分等级：

In [265]: from scipy.stats import percentileofscore
In [266]: score_at_2percent = lambda x: percentileofscore(x, 0.02)


In [267]: result = returns.AAPL.rolling(250).apply(score_at_2percent)


In [268]: result.plot()

扩展窗口平均expanding

扩展窗口平均（expanding window mean），从时间序列的起始处开始窗口，增加窗口直到它达到当前的序列。apple_std250时间序列的扩展窗口平均如下所示：

In [244]: expanding_mean = appl_std250.expanding().mean()
In [245]: expanding_mean.plot()

指数加权窗口函数ewm

指数加权窗口函数，定义了一个衰减因子（decay factor）常量，使近期的观测值拥有更大的权重。衰减因子的定义方式有很多，常见的是使用时间间隔（span），它可以使结果兼容于窗口大小等于时间间隔的简单移动窗口函数。

Pandas提供了ewm运算符计算指数加权窗口函数，下面的代码对比了苹果公司股价的30日移动平均和span=30的指数加权移动平均：

In [249]: aapl_px = close_px.AAPL['2006':'2007']
In [250]: ma60 = aapl_px.rolling(30, min_periods=20).mean()


In [251]: ewma60 = aapl_px.ewm(span=30).mean()


In [252]: ma60.plot(style='k--', label='Simple MA')
Out[252]: <matplotlib.axes._subplots.AxesSubplot at 0x7f2f252161d0>


In [253]: ewma60.plot(style='k-', label='EW MA')
Out[253]: <matplotlib.axes._subplots.AxesSubplot at 0x7f2f252161d0>


In [254]: plt.legend()

数据库

文章转载自漫谈大数据与数据分析，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

Pandas中的窗口函数(rolling/expanding/ewm)

Pandas中的窗口函数，包括移动窗口函数rolling，扩展窗口函数expanding，指数加权移动窗口函数ewm。

rolling：指定移动窗口的大小，每个窗口都是指定的固定大小。对于时间序列的索引，则可以传入特定的时间字符串，每个窗口是指定时间范围（详细可见前面时间序列方面的文章）。

评论