首页l资讯国内国际军事 娱乐明星综艺旅行 体坛足球篮球体育 科技汽车IT 业互联网+ 财经房产理财股票商机

【海通金工】准另类数据与因子投资(刘洋溢博士)

2020-09-09 08:51:03浏览:22编辑:旷兮若谷

西南财经大学金融学博士刘洋溢的主题报告:《准另类数据与因子投资》,本文为演讲纪要。

1

因子投资

因子投资和学术研究中的实证资产定价紧密相关,核心是把资产的预期超额收益分解为两个部分,一部分是alpha,另一部分是通过承担系统性风险所获得的风险溢价。

因子投资的核心在于获取超额收益,主要有两种方式。一种是通过配置beta来获取风险溢价,其中比较典型的就是Smart Beta ETF。个人理解,现在流行的指数增强型产品,在某种层面上也属于这种类型。另外一种方式更为直接,也是主动管理常用的,就是通过预测超额收益或alpha来筛选股票。

但是我们现在遇到的问题是,很多常见的因子,比如,规模、估值、动量,已经被挖掘得很充分了,可能很难带来特别显著的超额收益。在这种情况之下,我们应该怎么办?我想,我们至少有三种方式。

首先,我们可以尝试用更好的模型去拟合数据。比如,Lasso,弹性网络等。也可以尝试用一些非线性模型去刻画,比如,决策树、神经网络等。实际上,这些模型在业界的应用已经很广泛了,学术界这几年对这些方法的研究也越来越多。

第二种方法是使用更好的数据。举两个简单的例子,一是在业界已被普遍使用的高频数据,可以用来做高频交易。显然,它跟传统的中低频量价因子不是很相关。二是如果可以拿到投资者交易账户数据,就可以对投资者的行为偏差进行分析,并从中挖掘一些交易机会。当然,不太确定业界是否能拿到这样的数据,一些学术研究是可以拿到的。

第三种方法是同时拥有更好的模型和更好的数据。一个典型的例子是,基于文本数据,比如,公司的年报、和公司相关的新闻,还有一些股吧的评论,进行情感分析,从中找出新因子。在一些最新的研究和实践中,已经有人提出,我们不仅可以对文本数据做情感分析,甚至还可以对图像数据做情感分析。当然,这些方法比较新颖,相关的数据获取难度和建模的复杂程度也会更高一些。

2

准另类数据

实际上,除了业界,这些有关新数据的研究在学术中也非常重要。最近5年,金融学顶级期刊上发表的文章,有超过一半都用到了一些独特的新数据。由此可见,不论是业界还是学术界,另类数据都很有价值。

另类数据虽好,但也有一个很重要、很关键的问题,就是另类数据往往很贵,甚至根本没有办法获取到。在这种情况下,有没有一些解决办法呢?除了想方设法获取另类数据外,我们或许还可以从准另类数据的角度去尝试做一些挖掘和探索。准另类数据其实并不是一个严格、规范的术语,只是为了方便本文的叙述。所以,我们有必要先对它的特征做一个更为清晰的定义。

我想,准另类数据至少应该有三个特征。首先,它肯定不属于典型的公司特征,比如,公司的规模、估值、动量、盈利能力等。其次,它不应该是常见的宏观经济数据,比如,经济增长、通胀率等,也不应该像现在大家所熟知的一些另类数据,比如,文本数据、图像数据等,那样难以获取。这两个方面表明它是处于传统数据和另类数据中间的地带,体现了“准”的概念。

第三,准另类数据也必须要有另类数据的一些特征。这意味着,它必须是那些被传统分析或传统投资者所忽视,或者至少说是利用不那么充分的数据。所以,把这三个特征放在一起,就可以比较充分地来定义我们要讨论的准另类数据。

下面,我们将通过三组例子展开分析,探讨准另类数据可以有哪些应用。这三组例子分别包括日内数据、公司间关联和基金隐含的信息。关于日内数据,可以参考海通金工的相关报告,我们只做一些简单的讨论。重点是在第二组例子,公司间的关联。这一组例子非常有趣,也是未来极具挖掘空间的一个方向。最后,对基金的隐含信息,我们也会做一些简短的介绍。

3

日内数据

首先,是日内数据的一些应用,举两个例子。

3.1

方差不对称性

第一个例子是日内已实现方差的不对称性。显然,这里有两个关键词。一个是已实现方差,一个是不对称性。已实现方差的计算比较容易理解,以A股为例,每天有4个小时的交易时间,假设每隔一分钟采样一次,可以把每天的交易时间分成240个分钟,这240个分钟收益率的平方和就是当日的已实现方差。

不对称性意味着,还需要计算一个带方向的已实现方差。它的算法也很简单,根据每分钟的收益是正还是负,把分钟收益率划分为两个部分。把收益为正的分钟收益率取平方后相加,得到上行的已实现方差;计算下跌分钟上的收益率平方和,可得到下行的已实现方差。最后,用上行的已实现方差减去下行的已实现方差就可以得到方差的不对称性。当然,一般还需除以已实现方差进行标准化。

【海通金工】准另类数据与因子投资

我们可以想象一下,在什么情况下,方差不对称性指标会比较大呢?很显然,有这么两种情况。第一种是上涨的分钟很多;第二种是,虽然从平均水平来看,上涨的收益率和下跌的收益率是类似的。但上涨的时候是快速拉升,而下跌的时候是平稳下行。

日内收益往往有均值回复的特征。所以,如果已实现方差的不对称性比较大,那么就可以预期,在未来一段时间内,或者说,第二天,股票的收益相对来说就会低一些。

下表展示的是有关方差不对称性指标的实证结果,是一个典型的学术中常用的FM回归。由第一列可见,方差不对称性指标对下一天的股票收益存在显著为负的效应。而且,t统计量的绝对值也非常大。

【海通金工】准另类数据与因子投资

3.2

Semibetas

第二个例子是Semibetas,中文叫半beta,它和方差不对称性有很多相似之处。因为从资产定价的角度来说,影响最大的是beta。而beta的计算中,有一部分是斜方差的形式。

下式为斜方差的计算公式。其中,r是资产收益,f是因子收益,最简单就是市场因子。根据r和f各自的符号,可以把资产和市场的协方差拆分为四个部分。相应地,beta也就被拆分成了四个部分。

【海通金工】准另类数据与因子投资【海通金工】准另类数据与因子投资【海通金工】准另类数据与因子投资

将它们平均之后,得到的Semibetas策略的Sharpe比率和alpha进一步提升。这样做可以利用和这两个因子组合之间的负相关性,从而获得一些分散化的收益。

作为对比,第一列展示了传统的低beta策略。理论上,低beta策略可以获得比较显著的收益。但从实证结果来看,收益水平较低。尤其是与Semibetas策略相比,差距非常明显。

总结来看,利用日内数据可以对股票的风险及其未来短期收益进行更好的预测,从而获得更高的alpha。一个典型的应用场景就是日频换仓的交易。然而,随着交易频率的降低,比如,在学术研究中或中低频的基本面量化投资中更常见的月频,这些因子虽仍然有效,但效果却会大打折扣。

4

公司间关联

第二组例子也是我个人认为最有趣的部分,叫做公司之间的关联。

4.1

科技关联度

我们还是从一个例子出发,它来自于2019年JFE上发表的一篇文章。其核心是科技关联度指标,是利用企业的专利数据来计算的。

从逻辑上来说,为什么要考虑这样一个基于专利数据的公司关联呢?我们知道,传统意义上最显性的企业间的关联是行业。但这篇文章指出,典型的显性行业并不能反映公司业务之间的全部关联,而企业申请的专利数据的相关性,恰恰可以在这方面提供一些新的信息,因此就有了科技关联度指标。

指标的计算十分简单,把每家公司在不同类型专利上的数据表示成一个向量,然后计算两家公司对应向量之间夹角的余弦。

但是,就公司关联研究而言,度量关联本身并不是最核心的问题。真正重要的是,把与一家公司有关联的其他公司的股票收益进行加权,来得到关联收益。以科技关联度为例,假设要计算公司i的科技关联收益,只需把其他所有公司t月的收益,按照它们各自同公司i的科技关联度求加权平均。

【海通金工】准另类数据与因子投资

从经济学逻辑上来说,我们可以很自然地认为,这些关联企业之间的表现应该是相似的。因此,可以预期存在一个所谓的动量溢出效应。也就是,做多关联收益高的公司,做空关联收益低的公司。下表给出了这一策略的实证结果。

【海通金工】准另类数据与因子投资

最后两行是科技关联动量因子多空组合的表现。其中,倒数第二行是等权组合,最后一行是市值加权组合。从中可见,无论是用哪一种加权方法,科技关联动量因子的收益都是非常显著的。这一点既体现在t统计量上,也体现在它的水平上。

再看表中第二行,也就是High对应的这一行,代表的是科技关联动量因子的多头组合。可以看到,它的平均收益和alpha也都是高度显著的。这一特征非常有趣,尤其是对业界实践非常有价值。因为很多传统的因子,虽然多空组合非常显著,但收益更多来自于空头。如果只看多头,很多因子都不是那么显著。而在业界实践中,考虑到A股市场做空比较困难,我们可能更关心多头组合的表现。所以,这样的因子就显得非常有价值。

这个例子虽然简单,却具备一般性。它提供了公司间关联因子的基本逻辑和构建方式,因而很容易进行拓展。

从基本逻辑的角度看,公司间关联因子之所以有效,是因为它反应了常见公司特征以及像行业等显性关联所没有包含的信息。而这部分信息恰恰是尚未被大部分投资者所注意到的,因而就可能包含较高的alpha。

从因子构建的角度看,我们的核心指标总是某种关联收益,它的计算往往也很简单。就是把与目标公司有关联的其他公司的收益,按照一定的权重求加权和,而最典型的权重即为关联度。某些情况下,也可以是简单的等权。有了上述这两个认识,再来看后面的例子,相对来说,应当更容易理解。

4.2

地理联系

第二个例子讲的是公司之间的地理联系。按理说,地理关联应该是最容易想到的例子之一。因为一般说来,在考虑公司之间关联的时候,首先想到的肯定是行业,其次就是它们的地理联系。但由于行业关联太重要,所以在考虑地理关联的时候,需要剥离行业关联。因此,我们这里关注的核心是在同一个城市、但属于不同行业的公司股票间的关联。

为了更清楚地理解地理联系,我们来看如下的示意图。以老板电器为例,可以看到公司之间的关联分为如下几种。首先,最典型的关联是老板电器和华帝股份,它们之间的关系是很清晰的。因为它们属于同一个行业——厨电,有非常相似的基本面和分析师的覆盖。但它们不在一个城市,老板电器在杭州,华帝股份在广东省中山市。

【海通金工】准另类数据与因子投资

其次是老板电器和海康威视。后者是安防监控的龙头,一个偏科技类的公司。很明显,它跟老板电器的基本面是不同的。但它们也有一个很大的共同点,那就是都在杭州。因此,它们之间的关联就是地理动量所关注的重点。

最后是老板电器和中国石油。显然,无论是从行业还是从城市来看,它们之间都没有什么联系。

按照上文的逻辑,地理动量的计算也非常直接。即,在每个月末,找出与公司在同一个城市、但属于不同行业的其他公司,计算它们的平均收益,作为公司的地理关联收益。随后,做多关联收益高的公司,做空关联收益低的公司。可以预期,应当能获得比较显著的收益。

如下表中的实证结果所示,多空组合的收益和alpha都非常显著。但我们也需注意,无论是收益还是alpha,都只有40多个bp,与科技关联动量相比,明显要小很多。

【海通金工】准另类数据与因子投资

这一现象也符合预期,因为地理关联是大家很容易想到的,所以必然在一定程度上被挖掘得更为充分。但无论如何,它还是可以带来一个较为显著的收益。

4.3

重要客户动量

第三个例子讲的是供应链上下游公司间的关联,即考察一家公司的重要客户,比较常见的是公司的前5大客户。举一个不太恰当的例子,A股中的苹果概念股有一段时间很火热。假设苹果也是在A股上市的,那我们就可以知道,苹果概念股的重要客户一定有苹果,再把这些概念股的其他重要客户也找出来,假设它们也都是上市公司,那就能计算关联收益,得到重要客户动量指标。

下表中最后一列是重要客户动量指标的多空组合,收益非常显著,而且水平大概可以达到月均1.6%,比最开始讲的科技关联度的收益还要高。

【海通金工】准另类数据与因子投资

但是,也有一个细节需要注意,有相当多公司的重要客户并不是上市公司,因此,对于重要客户动量这个指标来说,适用的股票池会比一般的因子小很多。平均而言,大概会少一半股票,因此可能会面临持股不够分散的问题。但不管怎么说,它都是一个非常具有启发意义的策略。

4.4

复杂公司

下一个例子也很有趣,讲的是复杂公司的故事。市场中的公司一般有两类,第一类,公司业务非常简单,比如,贵州茅台,只有和白酒相关的业务。第二类,公司业务非常多元,比如,行业分类中的综合行业。这些公司的特点是业务非常多,但又没有一类业务非常突出,能够作为主营业务。显然,像贵州茅台这样业务比较简单的公司,投资者理解它的业务相对会更容易,因而对它估值也会比较容易。但对于业务多元化的复杂公司,要对它进行准确的估值就会比较难。

如果要像上文那样计算复杂公司和其他公司的关联收益,做法就会和前几个例子略有区别。因为这里计算的基础或者说关联的基础不是其他公司,而是复杂公司所从属的各个行业。那么,紧接着的问题是,怎么算行业组合的收益?可以肯定的是,不能直接用传统的行业指数,因为它其中也可能包含这些复杂公司。一个比较直观的方法是,把从事相关行业的所有简单公司,也就是把只从事这个行业的公司挑出来,算一个组合收益,再按照复杂公司在不同行业中的业务权重求加权和,从而得到复杂公司的关联收益。

【海通金工】准另类数据与因子投资

有了关联收益之后,我们就可以重复之前的老套路,做多关联收益高的公司,做空关联收益低的公司。从下表中的最后两行可以看到,无论是多空组合还是纯多头组合,收益都非常显著,水平也都非常高。

【海通金工】准另类数据与因子投资

4.5

共同分析师覆盖

最后一个例子的逻辑也很简单,讲的是共同分析师覆盖,这本身也已不是一个新鲜的话题了。但作者们却玩出了一点新花样,他们关注的不是分析师覆盖本身,而是将共同分析师覆盖作为一个桥梁,把有关联的公司的股票表现给联系起来。用上文类似的套路,可以计算这种关联方式下,每个公司的动量因子。

【海通金工】准另类数据与因子投资

如下表所示,通过这个动量因子得到的多空组合,多空收益同样非常显著。即使是纯多头组合,结论亦是如此。更值得注意的是,该因子的收益水平高于之前讨论的所有关联动量因子。对此,作者还进行了一些更深入的分析,并提出了一个观点。基于共同分析师覆盖所构建的因子,可以解释其他的关联动量效应。

【海通金工】准另类数据与因子投资

当然,从实践应用的角度看,我们并不那么关心哪个因子可以更好地解释其他因子,因为核心问题是获取alpha。所以,即便最后这个关联动量因子可以解释其他因子,我们也至少可以用其他因子来提供一些分散化的收益,这对投资实践还是十分有益的。

更重要的是,作者并没有把所有相关的动量因子都覆盖完整,还有很多其他的关联并没有被考虑进来,比如基于公司交叉持股的一些观点等等。因此,有关这一类型的动量溢出效应,仍然存在很多尚未被市场挖掘出来的信息,值得我们去深入探索。

我们刚才讨论的这么多例子,都是基于美国市场的案例研究。下面,我们简单看一下A股市场的实证分析。在这里,我们只简单讨论一下共同分析师覆盖,这个被号称是最权威的动量因子。

我们在一篇尚未公开发表的论文中考察了2003到2018年的A股,剔除了一些典型的不太可交易的股票,如,ST股、次新股等。同时,为了控制小市值的影响,我们还把市值最小的30%股票也剔除了,主要关注控制了市值之后的因子表现。

从下表中可以看到,无论是在小盘股还是大盘股中,关联公司动量效应都是显著的。我们也做了很多其他分析,发现在控制了各种各样的公司特征后,这个因子都是很显著的。后续如果大家感兴趣的话,可以尝试在A股做更多的实证。

【海通金工】准另类数据与因子投资

以上是有关公司间关联的一些介绍,做一个简单的总结。投资者对公司间关联信息的注意力不足,导致他们的反应不足,大概是所有公司间关联因子可以带来alpha的原因。此外,由于投资者的注意力不足,导致公司间的关联效应对公司未来的基本面有显著的预测能力,相关研究在前面提到的各种文献中均有很详细的讨论。

正如一开始提到过的,公司间的关联作为我们所讨论的准另类数据的典型代表,它的数据大部分是可以通过公开渠道获取的。而且历史数据表明,不管是在美股还是A股市场,看起来都是比较有效的。就当前的研究情况来看,还有很多种的公司间关联未被充分挖掘,它们应该有机会可以带来更多潜在的alpha,尤其是和传统方法相关性比较低的alpha。

5

基金隐含信息

最后,再简单看一下跟基金有关的一些信息,我们称之为基金隐含信息。之所以会关注这个方面,是因为刚才讨论的公司间的关联,更多的是站在信息生成的角度。而从基金的角度出发,观察的是机构投资者使用信息的过程。通过跟踪分析我们认为可能有比较高投研能力的投资者的行为,就可以从中挖掘出更多的信息。

5.1

股票质量与隐含alpha

第一个例子是股票质量,它的做法就很简单。Si,t表示基金i的alpha,Wi,j,t表示它持有股票j的市值,以此为权重,将它的alpha进行加权,就可以得到每个基金所隐含的股票的alpha。

【海通金工】准另类数据与因子投资

于是,我们就得到了一个隐含alpha因子。买入隐含alpha高的股票,卖出隐含alpha低的股票,可以获得非常显著的收益。

【海通金工】准另类数据与因子投资

5.2

Flow-Induced Trading

第二个例子讲的是,随着资金的流入/流出,基金为了保持合理仓位,必然会被迫做一些交易。那么,在一些合理的假定下,就可以估计基金因资金的流入/流出所做的交易行为,我们把估计量记为FIT。

对基金i和股票j,

【海通金工】准另类数据与因子投资

从下图中可以看到,该因子第0期的收益非常高,之后的4个季度也基本保持平稳,但在这之后开始出现显著的下滑。因此,首先可以确定的是,FIT因子,也就是资金流导致的交易行为,对股票的同期收益有非常显著的解释能力。

【海通金工】准另类数据与因子投资

不过,对于实践而言,我们并不关心对同期收益的解释能力,而是关心是对未来收益的预测能力,因此我们需要对这个因子的构建方法做进一步的探讨。可以看到的是,FIT因子是以资金流来进行预测的。故而,我们只要估计flow,就可以相应地估计FIT。

从已有的研究结果来看,相对而言,估计flow还是有比较可靠的方法。因此,我们就可以很自然地先估计flow,再把它代入,并估计股票的FIT因子。由下表可见,这样得到的FIT因子对股票未来1到4个季度的收益都有显著的预测能力。

【海通金工】准另类数据与因子投资

5.3

ETF持股比例

最后一个例子同样非常有趣,但其中的机制比较复杂。故我们略去原理,只介绍它的思想和结果。前面讨论的两个例子都是关于主动股票型基金的,而这个例子关注的是ETF的持股。研究发现,ETF的持股比例可以显著预测股票的未来收益。

【海通金工】准另类数据与因子投资

其中,i代表ETF,j代表股票,Wi,j,t为t期第i个ETF持有股票j的权重,AUMi,t为t期第i个ETF的规模,MktCapj,t为t期股票j的市值。

从下表中可以看到,ETF持股比例这个因子,无论是收益,还是相对于各种模型的alpha,都是非常显著而稳定的。虽然它的水平值不是太高,平均每月30到40个bp,但稳定性却很高。

【海通金工】准另类数据与因子投资

6

总结与讨论

以上便是有关准另类数据的所有内容,在此做一个简单的总结。我们认为,另类数据很有价值,但也有很多问题。比如,获取的代价很昂贵,甚至根本没有获取的渠道。因此,我们只能退而求其次,考虑使用准另类数据。它有两个好处,一方面,这些数据通常都是公开的,获取也比较便利;另一方面,这些数据有效的基础往往是行为金融学理论。因此,有理由相信,它们产生的alpha或是效应应当会比较持续。

在结束全部内容前,再做一些简单的资料推荐。平时在和朋友交流的过程中,常常会让我推荐一些和因子投资相关的书籍或资料。就我个人而言,特别喜欢的是这三本书:《Asset management》、《Empirical Asset Pricing》和《Asset Pricing》。第一本是自己开始认真做因子研究后,系统性看的第一本书。直到现在,每隔一段时间,我都还是会翻出来再看看,每次都能得到新的启发。第二本有点类似业界的实践操作手册,第三本则更偏重理论基础,有数学公式和推导,但并不复杂。以上三本书,在此一并推荐给大家。谢谢各位!

【海通金工】准另类数据与因子投资

7

风险提示

嘉宾的演讲内容来自于个人的研究和实践经验,并不构成投资建议。

联系人:冯佳睿 021-23219732

扫二维码 3分钟开户 布局下一波反弹【海通金工】准另类数据与因子投资海量资讯、精准解读,尽在本站财经APP
精彩推荐
猜你喜欢
商机推荐
  • 联系我们
  • 客服QQ

Copyright © 2018-2020, 优云推广 版权所有 侵权必究. 信息侵权、举报:853029381@qq.com

免责声明:以上所展示的信息由企业自行提供,内容的真实性、准确性和合法性由发布企业负责,优云推广对此不承担责任.