量化投资之路(四) 您所在的位置:网站首页 相关系数矩阵解读 量化投资之路(四)

量化投资之路(四)

#量化投资之路(四)| 来源: 网络整理| 查看: 265

关于时间序列分析,通常可以这样理解,基于“历史会重演”这一假设,我们才可以从历史分析中预测未来。这里也有两个要点:一是历史会重演;二是历史不会简单的重演[15]。

关于第一点“历史会重演”,这是很多人认可和理解的。毕竟在金融市场上,一切与人相关,而人性的贪婪和恐惧一定会在金融市场上一遍一遍的重演。这就给量化投资者提供了最基础的依据,不论是做量价分析,还是做异象数据分析,时间序列分析都是不可逾越的,即使做的是横截面分析,也仍然需要一个时间序列来做基础数据。

关于第二点“历史不会简单的重演”,这是很多人认可的,但不容易理解。比如,哈尔滨的一家咖啡厅里有一幅老照片,上面有一个写着上海街51号的老酒馆,大家自然会认为这个老酒馆的实际地址也是上海街51号,实际上却是上海街41号。换句话说,1万个人看时间序列有1万种解读。老酒馆写成上海街51号是因为主人认为4不吉利。如果你可以解读时间序列背后的逻辑,就可以找到一些致胜的规律。在金融时间序列背后,影响它的不是玄学而是传统或规则。

我们可以把“市场投资组合理论”和“时间序列分析”总结成一句话,“期望归零,方差交给时间”。请看下面的一个实例:

实例背景:2021年5月,一家基本面私募基金的量化转型。

实例组合:他们持有的股票池,由39只股票构成(东方财富|康泰生物|智飞生物|药明康德|天味食品|东方雨虹|比音勒芬|涪陵电力|硕贝德|信维通信|格力电器|工业富联|迈为股份|三安光电|壹网壹创|帝尔激光|东山精密|芒果超媒|捷佳伟创|顺网科技|中信证券|闻泰科技|环旭电子|同花顺|通富微电|海大集团|复星医药|康龙化成|泸州老窖|汇顶科技|卓胜微|斯达半导|玉禾田|中密控股|山西汾酒|东阿阿胶|水井坊|长春高新|豪悦护理|)。

实例困境:这个组合从2021年初到5月份虽然有一点赢利,但跑输了大盘,期间还发生了有史以来最大的回撤(近20%)。

量化目标:寻求改进的方向包括降低波动率和增厚收益率。

改进方法:一是基于市场投资组合理论,采用风险平价模型进行动态仓位调整;二是基于时间序列,采用多因子量化模型进行阿尔法收益增厚。

最终结果:1、采用风险平价模型动态调整仓位后(收益和风险前推6个月,由于组合中个别股票上市时间较短,所以只能选择测试时间2021.03.12-05.20):区间收益10.07%,与原组合11.1%的收效相比,损失很小;区间最大反向波动-3.37%,与原组合-9.8%的损失相比,反向波动大幅度降低(如下图)。

图1.9 投资组合优化后收益情况(1)

2、采用多因子量化模型阿尔法收益增厚后(基于5因子的选股排序等权重模型,测试时间2019.05-2021.05):区间收益为310%,与未增强前171.7%相比,阿尔法增强收益显著(如下图)。

图1.10 投资组合优化后收益情况(2)

从以上实例中我们可以看出,投资组合理论和时间序列阿尔法都可以通过量化模型的方法进行收益与风险的调整,一个偏资金管理;一个偏标的管理。

总结来说,时间数列是指将某一现象所发生的数量变化,依时间的先后顺序排列,以揭示随着时间的推移,这一现象的发展规律,从而用以预测现象发展的方向及其数量。

在数学上,随机过程被定义为一族时间随机变量,即

其中, T 表示时间 t 的变动范围。

时,此类随机过程 x(t) 是离散时间 t 的随机函数,称为时间序列。

一、金融时间序列的基本分类

金融数据分析中,我们最常见的有数据类有三种,分别是:横截面数据(Cross Sectional Data)、时间序列数据(Time Series Data)、面板数据(Panel Data)[16]。

下面,我们结合金融数据分析理论和量化投资研究对三者做一个简单的介绍:

1.横截面数据(Cross Sectional Data)

指在同一时间(时期或时点)截面上反映一个总体的一批(或全部)个体的同一特征变量的观测值,也称静态数据。它对应同一时点上不同空间(对象)所组成的一维数据集合,研究的是某一时点上的某种经济现象,突出空间(对象)的差异。比如可以从不同公司在同一时间发布的财务报表中,得到同一年度这些公司的一些财务数据。

2.时间序列数据(Time Series Data)

(1)时间序列数据是指对同一对象在不同时间连续观察所取得的数据。它着眼于研究对象在时间顺序上的变化,这类数据反映了某一事物、现象等随时间的变化状态或程度。

(2)与横截面数据相比较,其区别在与组成数据列的各个数据的排列标准不同。时序数据是按时间顺序排列的,横截面数据是按照统计单位排列的。因此,横截面数据不要求统计对象及其范围相同,但要求统计的时间相同。也就是说必须是同一时间截面上的数据。

3.面板数据(Panel Data)

也称平行数据,是截面数据与时间序列数据综合起来的一种数据类型。指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。或者说他是一个m*n的数据矩阵,记载的是n个时间节点上,m个对象的某一数据指标。简而言之就是对上面两个数据的综合。

二、金融时间序列的线性模型(一)相关系数和自相关系数

1.相关系数

我们先引入一个例子。观察下图600519(贵州茅台)的月收益率和上证综指月收益率的散点图。

图1.11 贵州茅台月收益率和上证综指月收益率相关性分析

从上图看,这两个收益率看起来是相关性较低的。线性相关的程度常用皮尔逊(Pearson)相关系数来衡量。在统计上,两个随机变量 和 的相关系数定义为为:

而我们的根据样本的估计计算公式为:

其中,

分别是 和 的样本均值。并且假定方差是存在的。这个系数是度量 和 线性相关的程度。完全线性正相关意味着相关系数为+1.0,完全线性负相关意味着相关系数为-1.0,其他情况下相关系数在-1.0和+1.0之间。绝对值越大表明相关性越强。

2.自相关系数

相关系数衡量了两个序列的线性相关程度,而自相关函数,顾名思义就是衡量自己和自己的相关程度,即 ( ) 和过去某个时间 ( − ) 的相关性:考虑平稳时间序列 , 与 − 的相关系数称为 的间隔为 的自相关系数,通常记为 ρl。具体的定义:

根据定义,ρ0=1,ρ1=ρl,和 -1 ≤ ρl ≤ 1。自相关系数组成的集合 ρl称为 的自相关函数(Autocorrelation Function)。一个若平稳的时间序列是序列自身前后不自相关的。对一个平稳时间序列的样本 , 1 ≤ t ≤ T,则间隔为 的样本自相关系数的估计为:

序列的自相关性常用来解释金融系统中经济行为在时间上的惯性,比如人们消费的行为会受到习惯的影响,并不会由于收入的增加或减少而立刻调整。呈现出一定程度的自我相关。

3.偏自相关系数

假设股票价格偏p1,p2,···,pt的一阶自相关系数 ρl 大于0,即今天的价格 pt 与昨天的价格 pt-1 相关,可能 pt 也会受前天,大前天的价格的影响。也就是说 pt 与 pt-1 的 自相关系数 算出的结果不单纯是昨天对今天的结果,而是包含了之前的一些信息,间接地对今天产生了影响。为了衡量过去单期对现在的影响,剔除其他期的作用,引入偏自相关系数。具体比较复杂,后面介绍AR模型的时候我们再详细论述。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有