收益复制的LASSO回归方法实践——机器学习实战系列之二ag88环亚
来源:http://www.hebline21.com 责任编辑:ag88环亚娱乐 更新日期:2019-04-12 07:05

  广义的收益复制策略在许多场景中都有应用价值。较为典型的收益复制应用情景包括三类:(1)极小型股票池、低调仓频率实现宽基指数跟踪;(2)通过直接持有底层资产,近似模拟基金组合收益,降低管理费用;(3)在持股受限的情形下解决受限个股替代性持仓的权重分配问题。同时,海外市场中的对冲基金指数ETF产品的设计思路对我们也有一定的参考意义。

  系统化地实现收益复制框架并非易事,它需要回答两个核心问题:选什么股票和如何在它们之间进行权重配置。通过机器学习方法中的LASSO回归模型筛选最优股票池,然后求解二次优化模型得到最优持仓权重是本文的核心框架。

  在小型股票池(最大30只持仓)、低换手频率(月度调仓)的条件下,模型构建的复制组合仍能对指数、基金和个股实现长期跟踪。从指数、基金和个股三个层面的回溯结果来看,复制组合的月度平均跟踪误差分别为0.07%、0.01%和-0.16%,跟踪误差标准差分别为2.08%、4.02%和4.40%。模型的长期跟踪效果较为稳定,但短期跟踪效果仍有待提升。

  在基金和个股收益复制的研究过程中,我们发现LASSO回归准确捕捉了目标投资组合的风格和行业特征,并精确识别了基金持仓个股。这类结果对我们实时捕捉投资组合的持仓风格也有很大意义。

  收益复制策略的主要目标是通过持有少量底层标的资产来间接获得被复制组合的投资收益。这里所涉及的底层标的资产主要包括股票、债券、指数ETF和各类衍生工具,而被复制的目标则主要是指特定的指数、基金或个股。

  国内目前对收益复制的认识主要局限在指数复制策略上,但指数复制仅为收益复制模型的一个特例,广义的收益复制在许多场景中都有应用价值。本节主要梳理收益复制在指数复制、基金复制以及个股复制的几个典型应用情景,并在后续章节讨论基于机器学习模型中压缩估计(Shrinkage Estimation)方法来实现收益复制的数学模型、实践框架和验证结果。

  同时值得关注的是,海外市场对收益复制策略已有广泛研究与实际应用。这些实践对我们也有一定的启发借鉴意义,本节还将对其进行简要介绍。

  最典型的收益复制情形即指数收益复制。指数ETF是最广泛的指数投资产品。从复制方法来看,指数ETF基金大多采用完全复制法,以最大限度地保证跟踪精度,满足年化跟踪误差2%的限制。但资金量有限或者交易层面存在特殊约束时,投资者通常难以构建和指数分散化程度相匹配的投资组合。同时,许多非ETF管理者在特定的投资环境下也可能希望便捷地实现某个指数的收益。这几类情形都是我们在本报告中所关注的。与完全复制法不同,我们在本文探索的重点是如何在持仓股票数目较少(30只)、调仓频率较低(月度调仓)的条件下构建投资组合近似跟踪特定宽基指数的优化框架,以及检验这种相对极限的情况下能够取得的最优跟踪效果。

  收益复制的另一类典型应用是通过直接持有底层资产来复制一个特定的基金或者投资组合的收益。两类投资者希望在仅持有底层资产而不直接买入目标基金的情况下仍能获得目标基金的投资收益:一类是因为资金规模或合约限制而无法直接买入持有的投资者,另一类是FOF基金管理者。一方面,私募基金和对冲基金可能存在购入限制,许多投资者只能通过买入底层资产的方式来间接复制其收益;另一方面,如果直接持有为数不多的股票也能获得和目标基金相近似的投资收益,也可以减少向基金管理人支付的管理费用。

  相较之下指数复制的问题更为简单,因为作为关键信息的股票池已经圈定,原始权重也通常能够定期获得。而对于特定的目标投资组合来说,外部投资者无法确切获知其内部持仓,其持股风格和行业配置也并非透明,这无疑给具体操作增加了难度。本研究将要探讨的方法也旨在从一定程度上解决这类“黑箱”复制问题。

  由于交易限制的原因,机构投资者常常无法买入自身所在机构及其关联公司的股票,而这些股票又往往在市场的重要指数或者投资经理的目标组合中占有很大权重。大型金融机构常常面临此类问题。作为收益复制的应用之一,在研究中我们也将讨论此类情形下如何设计持仓方案来替代受限个股,也即如何通过机器学习模型自动匹配最优股票池并计算权重分配,利用这个小型的分散化组合来替代受限股票在原始组合中的权重。

  值得一提的是收益复制模型在海外基金市场的实践。以基金公司ProShares推出的对冲基金指数ETF产品ProShares Hedge Replication ETF为例[1],我们简要介绍海外投资公司是如何利用收益复制方法构建此类基金产品的。这只基金于2011年底推出并在NYSE Arca交易,存续期已达6年之久。该基金目前的管理规模并不大,同类产品中IndexIQ公司的IQ Hedge Multi-Strategy Tracker ETF的管理规模已达11亿美元[2]。但作为较早发行的此类产品,其设计思路仍有一定的代表意义。

  对冲基金在欧美金融市场中占有重要地位,其广泛的投资标的和灵活多变的投资风格成就了它独特的风险收益特征。但一般而言,对冲基金产品分散而且进入门槛较高。尽管能够给投资组合带来重要补充,但想要直接持有大量分散化的对冲基金产品并非易事。ProShares的对冲基金ETF产品首先追踪了2000余只对冲基金的收益表现,构建了包括事件驱动(EventDriven)、权益对冲(Equity Hedge)在内的七类对冲基金指数。由于这些对冲基金最终投向的标的仍然集中在股票、期货、政府债券以及海外个股上,因此标普500、罗素2000、MSCI海外市场等相关指数已能够在较大程度上解释对冲基金指数的波动。通过定期测算各个对冲基金指数在这些宽基指数上的暴露度,ProShares可以利用因子复制模型计算跟踪组合所应当持有的各类资产的权重,并最终通过买入宽基指数ETF、期货、期权和债券等高流动性产品,实现对对冲基金指数的收益复制。而在获取对冲基金收益的同时,该产品并不需要买入任何具体的对冲基金产品。

  从性质上看,海外市场流行的对冲基金和我国方兴未艾的私募基金较为相近。对冲基金ETF的设计思路对我们也或许有启发借鉴意义。

  虽然收益复制策略仅以复制特定目标组合的收益为目标,但是系统化地实现收益复制框架并非易事。它需要回答两个核心问题:选什么资产来复制以及如何在它们之间配置权重。

  本文的核心思路是在最小化均方误差的视角下,借助机器学习方法中的压缩估计(Shrinkage Estimation)方法来自动寻找最优成分股,并利用二次优化模型计算最优持仓权重,从而形成滚动计算、定期调仓的跟踪组合。

  模型框架整体上是纯数据驱动的,而且有极强的普适性:给定一个目标收益和一组基础资产,模型总能自动化地得到最优跟踪组合。

  从优化问题的视角来看,收益复制在数学上最终可以归结为一个寻找最优权重以最小化跟踪误差的优化模型。

  其中左侧为被复制组合的收益率。该组合持有的资产为,第i个资产在第t期的权重为收益率为服从正态分布的。公式中加粗符号为矩阵表示。

  假如我们希望通过持有另一组资产来复制这一组合的收益,从优化的角度来看,我们实际上是在寻找替代性组合的最优权重向量来最小化历史跟踪误差。数学上也即

  其中TE指均方跟踪误差(Tracking Error),为跟踪组合的收益率。

  在上述设定形式下,最优权重的求解问题和如下的普通线性回归模型是完全一致的:

  这种简洁的模型结果依赖于以均方误差为优化目标的形式。在最小化平均绝对误差等目标函数下模型求解比较复杂,需要借助特殊的优化算法。此外,一般我们还需要正则化约束(每期的持仓权重之和为1),以及在不可卖空环境下需要非负性约束(所有持仓权重均应当大于等于0)两个边界条件:

  这两个约束也将增加我们在进行优化时的复杂性。为了保证模型精度,我们将其视为一个标准的受限二次优化问题(Constrained QuadraticProgramming)。具体实现方法为Goldfarb and Idnani 提出的迭代过程。

  尽管在基础资产池中纳入更多的股票可以更好地跟踪收益,但现实中的操作难度和交易成本也将大幅增加。由于个股之间存在强相关性(共线性),普通线性回归得到的系数稳健性很弱,并且在和目标组合弱相关的股票上仍有非0但绝对值极小的回归系数。在实际操作中,我们的目标是复制组合纳入的股票数目较少,而配置权重足够稳定。

  达成这一目标的典型思路是采用变量筛选的方法来寻找最优子集。传统的回归变量筛选过程是以BIC为标准,根据向前向后逐步回归法来实现的。这种方法在变量很多时效率较低,并且作为贪心算法的一种,很难保证选出的变量子集是全局最优的。

  领域一类重要的变量选择和参数估计方法。LASSO 回归和普通最小二乘回归在模型上

  通过调节约束参数q的大小,我们可以控制进入模型的变量个数。随着约束的逐渐放松,变量将按照重要性顺序逐个进入到模型当中,从而完成逐步筛选变量的过程。

  1) 引入惩罚项,有效解决共线问题、过拟合问题。它将变量选择过程直接纳入回归拟合中,将部分变量的系数压缩至0,有监督地寻找最优变量空间。

  在本文中,我们之所以关注LASSO回归是希望利用其灵活而稳健的变量压缩过程来寻找最优的基础资产子集。不过,LASSO回归在变量压缩后得到的系数是有偏估计,并不能直接作为配置权重的有效估计。为了得到最优权重,我们仍然需要将筛选后的股票的收益率放回到二次优化器里重新求解。

  前述小节中简要介绍了本文的核心方法框架。延续我们在最开始提出的几个应用情景,本节主要验证该方法对宽基指数的复制效果,后续章节继续进行基金和个股层面的测试。

  通常来说,最为精确的指数复制方法即完全复制法,但完全复制方法对于资金规模和交易成本控制的要求相对较高。我们此处主要关注的是低股票数目和低调仓频率投资组合的近似复制效果。我们将构建一个最大持仓30只股票、月度调仓的投资组合来复制中证红利指数(000922.SH)的指数收益。中证红利指数挑选现金股息率高、分红比较稳定、ag88环亚娱乐具有一定规模及流动性的100只股票作为成分股,并以股息率加权的方式构建指数来反映A股中高红利股票的整体状况和走势。股息率选股是2017年市场普遍关注的投资策略,并且中长期来看,中证红利指数的表现相对于沪深300指数和上证50指数也具备一定的优势。

  2、利用过去一年的历史数据构建当月跟踪组合。每月月末,针对过去一年的中证红利指数和沪深300成分股日度收益率数据,首先利用LASSO回归筛选得到沪深300成分股中的30只股票作为最优资产池,再采用二次优化模型得到这30只股票的当月配置权重,形成当月持仓。

  3、 回测时间为2010年5月至2017年10月底。买入和卖出均设置0.35%的交易成本。

  从整体效果来看,跟踪组合能够对中证红利指数进行长期有效跟踪(图5中的组合净值和可比指数均以1000为起点)。2010年5月至2017年10月底累计跟踪误差6.6%。从月度频率来看,单月平均跟踪误差0.07%,跟踪误差标准差2.08%。具体时间区间上,跟踪误差相对较大的是行情变动剧烈的2014年和2015年上半年。总体而言,在最大30只持仓、月度调仓频率的条件下,复制组合仍能对中证红利指数实现良好的跟踪效果。

  我们以某基金A作为跟踪目标,举例测试模型在基金收益复制的实际效果。这一基金可追踪历史较长,基金规模较大,并且整体表现稳定。测试框架和前文的中证红利指数复制框架保持一致,但考虑到基金的持股集中度,将跟踪组合的最大持股数限制为20只股票。

  复制组合总体能够长期跟住基金的业绩表现。从理论上来讲,只要底层资产和被复制基金包含相同的收益因子,基金的收益总是可以复制的。但在实际操作时,跟踪组合的表现通常还是会和基金实际表现有所差异,并且通常略弱于被跟踪基金的表现。一方面,基于历史数据得到的仓位估计总是有一定的滞后性;另一方面,基金经理通过更为灵活的仓位控制和选股策略可以产生无法被复制的Alpha收益,这也是基金经理管理能力的体现。

  从基金收益的复制结果来看,跟踪组合能够较好地拟合基金实际投资收益。2015年3月至2017年10月累计跟踪误差-0.71%,月度平均跟踪误差0.01%,跟踪误差标准差4.02%。

  同时,尽管被复制组合的收益率是通过持有一组特定权重的基础资产获得的,我们并不要求复制组合也持有同样的资产,甚至不需要确切知道被复制组合真实持有的底层资产池是什么。例如,为了复制沪深300 指数,我们可以将复制组合的基础资产池限定在上证50 成分股这一小范围内,也可扩充至中证500 成分股这一更大的股票池,尽管沪深300 指数并不实际包含其中的成分股。而在基金收益复制中,我们甚至无法准确了解基金组合的持仓情况,但仍能通过上述方式在宽基股票池、债券池或期货池中寻找到最优的底层资产池。在基金风格分析等研究中,我们也不需要保证基础资产为可交易资产,而是利用一组通用风险因子作为收益来源来分析组合的风险暴露和构成。简言之,我们只需保证收益因子的可观测性以及被复制组合的收益率在展开为收益因子的线性组合仍具有较高的拟合精度即可。

  如果仔细对比我们构建的跟踪组合持仓明细和基金披露的实际持仓明细,我们将会发现一个有启发性的结果。以2017年三季度这一时间节点为例,表3给出了该基金在三季报公布的9月30日实际持仓,而表4为我们构建的跟踪组合在9月底的持仓明细。

  被跟踪基金持仓权重前十位的股票包含了康得新、欧菲光、大华股份和歌尔股份等四个沪深300指数成分股。通过LASSO回归,模型精确找到了这四只股票,同时二次优化模型对这四只股票的权重估算也与基金实际持仓排序较为接近。由于我们将跟踪组合股票池限制在沪深300成分股之内,因此基金实际持仓中的非沪深300成分股并未能包含在跟踪组合当中,但是模型仍然找到了与其行业、风格以及收益相接近的其他股票作为替代。

  模型并没有外源信息来获知基金的实际持仓,而且三季报公布的持股数据通常要在十月下旬才能够公布,但机器学习方法通过对历史数据的自我学习仍然相当灵敏地捕捉了其持股风格和行业特征,并且准确挖掘了基金持有的部分重仓个股。

  最后,我们进行个股层面的测试。如前所述,个股收益复制的主要意义在于对存在持股限制的股票进行替代。我们选取测试的被跟踪标的为兴业银行(601166.SH)。这只股票是上证50、沪深300等重要指数的成分股。同时金融股通常总市值较大,占有指数权重相对较高,并且也更可能触发持仓限制。本节的测试框架和前文对中证红利指数的测试设置一致,即月度调仓、最大持有股票数30只。

  复制组合的长期跟踪效果较好。2008年3月至2017年10月累计跟踪误差6.17%,月平均跟踪误差-0.16%,跟踪误差标准差4.40%。在明显行情分化的市场阶段,跟踪组合可能会产生很大的短期偏离。短期内,当个股快速上行或回落时,我们是无法使用替代的方法来实现个股超额收益的。但长期来看,个股的异动会回复到市场的平均水平,因此我们仍能在长周期上实现良好的跟踪效果。从这个角度来看,复制已实现充分分散化的指数或基金的收益的难度要远低于复制个股收益的难度。

  从具体持仓结构来看,持仓次数和平均持仓权重最高的股票均为银行、保险或地产行业的股票。在117个回测月份中,浦发银行、平安银行、招商银行、北京银行以及华夏银行入选持仓的次数分别为117次、108次、96次、89和76次。相关结果也说明模型在行业和风格识别上的准确性。

  总体而言,基于LASSO回归变量筛选和二次优化确定权重的复制思路基本可以实现极小型股票池(30只股票)、低调仓频率(月度调仓)设置下对指数、基金和个股收益的复制。在研究结果中,复制组合的短期跟踪效果仍有待提升。同时,我们也测试过使用同样的设定来跟踪沪深300和中证500两个规模指数,但跟踪误差要略大于对中证红利指数的复制。尤其2016年与2017年整体跟踪偏离较大,跟踪组合相对这两个指数均有持续性的正超额收益。结合前文的回溯结果,我们在本节对模型的性质做一些更清晰深入的讨论。

  小型股票池实现收益复制本质上离不开抽样复制的实现框架,也即先选定子样本,再在子样本中进行权重优化的两步走的方法。假设用来复制的资产池和被复制组合实际包含的资产均为,但我们只选取前P个基础资产来进行收益复制,那么跟踪组合和目标组合收益率之间的关系可以进行如下的表示:

  由于为随机变量,的方差通常大于。同时被保留与被剔除的基础资产收益率均值可能不对等,因此可能存在系统性偏差,也就产生了持续性的正向或负向超额收益。以沪深300指数复制为例,典型的抽样复制思路是直接选取权重最大的30只股票然后采用权重扩大的方法设置权重。这种方法能够在限制股票个数的条件下尽可能跟踪指数收益的主要来源,但按照上述的分析我们也可以知道其主要缺陷在于主动暴露了大市值因子。而A股历史中市值因子始终是一个典型的风险源,因此可能存在较为明显的系统性偏差。

  总体而言,抽样复制在不同程度上都存在类似的偏误问题。从模型的角度出发,我们认为指数复制层面仍有几点问题值得讨论和注意:

  1. 无论何种思路,在指数复制中限制股票池数目都不可避免地优先选择出大权重股票,复制组合在市值和行业风格因子上存在一定偏离。

  2. 月度调仓频率偏低。提高调仓频率可以有效提高复制的精度,但对交易成本的敏感性增大,管理难度也将提高。

  3. 除典型的市值和行业风格因子偏离外,模型会优先筛选出和指数收益相关性较大的股票。而根据我们过往的研究,个股和指数的相关系数可以作为一个Alpha因子提供超额收益。相关研究可以参考我们在2016年12月发布的报告《关系图谱分析与网络中心度选股策略》。

  本文主要讨论了收益复制策略的几类应用情形,并构建和探讨了相关模型和复制效果。

  广义的收益复制在许多场景中都有应用价值。较为典型的收益复制应用情景包括三类:(1)极小型股票池、低调仓频率实现宽基指数跟踪;(2)通过直接持有底层资产,近似模拟基金组合收益,降低管理费用;(3)在持股受限的情形下解决受限个股替代性持仓的选股和配比问题。同时,同样采用收益复制模型的海外对冲基金指数ETF产品,对我国相应的产品结构设计也有一定的参考意义。

  系统化地实现收益复制框架并非易事,它需要回答两个核心问题:选什么股票和如何在它们之间配置权重。本文的主要模型框架是通过LASSO回归筛选最优股票池,然后利用二次优化模型得到最优权重估计。

  在低持仓股票数(最大30只持仓)、低换手频率(月度调仓)的条件下,模型构建的跟踪组合仍能对指数、基金和个股实现长期有效跟踪。从指数、国务院安委办布置展开电动自行车,基金和个股三个层面的回溯结果来看,跟踪组合的单月平均跟踪误差分别为0.07%、0.01%和-0.16%,跟踪误差标准差分别为2.08%、4.02%和4.40%。长期跟踪效果稳定。

  机器学习方法准确挖掘了目标组合的持股风格。在基金和个股收益复制过程中,我们发现LASSO筛选方法准确捕捉了目标投资组合的持仓风格、行业特性乃至持仓个股,并且二次优化模型也较为准确地估计了个股的持股权重。这对我们实时跟踪分析基金持仓特征也有很大意义。

  长江证券股份有限公司具有证券投资咨询业务资格,经营证券业务许可证编号:10060000。本报告的作者是基于独立、客观、公正和审慎的原则制作本研究报告。本报告的信息均来源于公开资料,本公司对这些信息的准确性和完整性不作任何保证,也不保证所包含信息和建议不发生任何变更。本公司已力求报告内容的客观、公正,但文中的观点、结论和建议仅供参考,不包含作者对证券价格涨跌或市场走势的确定性判断。报告中的信息或意见并不构成所述证券的买卖出价或征价,投资者据此做出的任何投资决策与本公司和作者无关。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可升可跌,过往表现不应作为日后的表现依据;在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告;本公司不保证本报告所含信息保持在最新状态。同时,本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本公司及作者在自身所知情范围内,与本报告中所评价或推荐的证券不存在法律法规要求披露或采取限制、静默措施的利益冲突。本报告版权仅仅为本公司所有,未经书面许可,任何机构和个人不得以任何形式翻版、复制和发布。如引用须注明出处为长江证券研究所,且不得对本报告进行有悖原意的引用、删节和修改。刊载或者转发本证券研究报告或者摘要的,应当注明本报告的发布人和发布日期,提示使用证券研究报告的风险。未经授权刊载或者转发本报告的,本公司将保留向其追究法律责任的权利。

  本订阅号不是长江证券研究所官方订阅平台。相关观点或信息请以“长江研究”订阅号为准。本订阅号仅面向长江证券客户中的专业投资者,凯发娱乐!根据《证券期货投资者适当性管理办法》,若您并非长江证券客户中的专业投资者,为保证服务质量、控制投资风险,请勿订阅或转载本订阅号中的信息。长江研究不因任何订阅本公众号的行为而将订阅者视为长江证券的客户。

  市场有风险,投资需谨慎。本订阅号接受者应当仔细阅读所附各项声明、信息披露事项及相关风险提示,充分理解报告所含的关键假设条件,并准确理解投资评级含义。在任何情况下,本订阅号中的信息所表述的意见并不构成对任何人的投资建议,订阅人不应单独依靠本订阅号中的信息而取代自身独立的判断,应自主做出投资决策并自行承担全部投资风险。