一些统计方法在财务分析中的应用

稀饭居然不在家 2022-08-18

468

作者：稀饭

本文约1800字，数理内容较多，泛读需6分钟，精读需14分钟。

1、基于Mann-Kendall检验判断财务指标的长期趋势

有时候我们需要分析一些财务指标例如营业收入、营业成本、应收账款、存货周转率、总资产周转率等在某段时期内的整体趋势变化情况，就可以将指标数据根据时间维度进行排列，视其为一个时间序列数据，采用M-K检验对长期时间序列数据进行趋势检验。

（1）M-K检验基本介绍

① 用途：判断一组时间序列数据是否存在上升或下降的发展趋势。

② P值＜0.05时的严格结论表述：有95%以上的把握，认为该组时间序列数据存在显著上升（下降）的趋势。

③ 该检验可靠的前提假设：该组时间序列数据是相互独立且服从同一分布（IID假设）。

④ 该检验可正常使用的一般判断条件：样本量≥ 8（此时用于检验的统计量近似服从正态分布，可以构建概率表达式求P值）。

⑤ 该检验可正常使用的严格判断条件：时间序列数据是独立同分布的，且检验统计量有近似抽样分布（由于M-K检验是非参数检验，一般无需这么严格的判定条件，独立同分布假设条件的显著性检验比较复杂）。

（2）M-K检验的具体步骤

（3）分析举例

某公司营业成本在2018-2020年共12个季度的数据用M-K检验进行判断，得到p值为0.02＜0.05，趋势方向系数β为3＞0，则认为该公司营业成本在2018-2020年整体上存在显著的波动趋势，且趋势波动的方向为上升。

2、利用“中位数-四分位差”的方法判断财务指标的异常值

（1）“中位数 - 四分位差”异常值检验方法介绍

（2）分析举例

设现在有某公司2021年在某个预算科目上的预算消耗值每个月的数据，共12个数据，需确定里面哪些月份的预算消耗值属于异常。则可以基于这12个月份的数据，分别计算中位数、四分位差，然后采用“[中位数－1.5×四分位差，中位数 + 1.5×四分位差]”的区间对这12个数据分别做判断，当数据不处于这个区间时，认为是异常的。当数据处于区间右侧时，认为指标存在高值异常（消耗显著超预算）；当数据处于区间左侧时，认为指标存在低值异常（消耗显著不足预算）。

（3）其他异常值检测方法介绍

① One-class SVM：是一类基于SVM（支持向量机）的分类算法，其有详细的机器学习的理论基础，可以用于异常值的检测。这个算法的思路非常简单，就是寻找一个超平面将样本中的正例圈出来，预测就是用这个超平面做决策，在圈内的样本就认为是正样本，在圈外的样本就认为是负样本（异常值）。

② LOF方法：是一种基于密度的异常值检测算法。LOF方法通过计算一个数值score来反映一个样本的异常程度。这个数值的大致意思是：一个样本点周围的样本点所处位置的平均密度比上该样本点所在位置的密度。比值越大于1，则该点所在位置的密度越小于其周围样本所在位置的密度，这个点就越有可能是异常点。

③ Isolation Forest（孤立森林）：是《机器学习》（西瓜书）的作者周志华老师于2010年提出的一种异常值检测算法。Isolation Forest是一种高效的异常检测算法。在所有样本数据中，异常数据具有数量少并且与大多数数据不同的特点，利用这一特性分割样本，那些异常数据也容易被隔离处理。整个挖掘过程使用决策树相关的知识来进行。

3、利用因子分析判断影响财务指标的重要因素

（1）因子分析介绍

因子分析是用少数几个新变量（因子）的线性组合来表示多个原变量之间的关系，且尽可能多地反映原变量的信息。其计算步骤是：