超长干货!一文看懂将近200年的量化金融简史!
文 / 部分内容@来源于算法与数学之美,如侵删
图 / 部分内容@来源于网络,如侵删
量化金融领域自然是涉及基础数据抓取及处理、量化交易策略编写及回测、实盘程序化交易、衍生品定价、机器学习、高频交易等模块的内容。
经过这么多年的发展,量化金融越来越变得更加成熟,甚至已经到了一种状态,“投资者想要从事量化交易,必须是精通金融和计算机语言的复合型人才,金融、建模、编程缺一不可。”
那么,问题来了,量化金融发展了这么多年,你真的清楚它的历史吗?下面就来给大家普及下量化金融将近200的简史。
1、布朗运动
1827年,苏格拉生物学家Robert Brown用他自己的名字命名了微小粒子在液体中自由运动的现象:布朗运动。这种“随机游走”的理念,后来贯穿于许多科学领域,尤其是普遍运用于各种不可预测的连续时间过程的机制。
基于布朗运动的对数正态随机游走理论,成了金融市场的经典框架,为之后的量化金融的蓬勃发展奠定了基础。
2、量化金融开拓者
Louis Bachelier,是第一个量化描述布朗运动的人。
他在1900年的论文中提出:影响股票价格涨跌的原因是无穷无尽的,无法用概率论模型来动态准确地预测,这也不是一项精确意义上的科学;但是,在市场的某一个静态的时刻,可以建立数学模型来分析市场涨跌的概率的大小,这就是随机游走的数学理论基础。
他的模型为后来的研究工作提供了大量的参考,例如股票价格模型、期权定价模型等。但遗憾的是,在他的有生之年都没有引起业界的重视,它的价值直到几十年后才被后人发现。
3、扩散方程
许多期权相关的模型最终归结于一个扩散方程,这是一个偏微分方程,一般通过数值方法计算,主流的两种方法是模特卡罗法和有限差分(一个更为复杂的二叉树模型)。
有限差分方法最初由LewisFry Richardson在1911年提出,他将微分方程离散成了差分方程,用来解决天气预测中扩散方程问题。Richardson后来从事战争原因数学模型的研究。
4、维纳过程
1923年,NorbertWiener为布朗运动建立了一套严格的理论体系,这也是之后几十年的量化金融的数学基础,在数理类学术论文中被大量引用。
在纯数学领域,维纳过程在连续鞅以及连续时间随机过程、扩散过程、位势论中发挥重要作用;在应用数学领域,维纳过程用来代表白噪声高斯过程的积分,是信号处理、控制理论的重要模型;在物理学、量子力学方面,维纳过程也有广泛的运用;在数量金融领域,它是Black-Scholes期权定价模型的基础。
5、数量经济学
说到20世纪的经济学家,美国人Paul Samuelson算是最有影响力的之一,他建立了经济学理论的科学分析体系,被称为现代经济学之父,也是第一位获得诺贝尔经济学奖的美国人。
Samuelson建立了宏观和微观经济学数量化体系,代表的研究成果包括消费理论中的功效函数、福利经济学里面的Lindahl–Bowen–Samuelson条件、资本市场理论中的隧道理论、金融市场中的有效市场假说、公共金融学中的最优化配置、国际金融学中的Balassa–Samuelson效应和Heckscher–Ohlin 模型等。
Samuelson重新发现了Bachelier的研究论文,为后来的期权定价理论打下了基础。他的衍生品定价理论是基于数学期望的,这和之后的风险中性理论有很大的差别。
Samuelson从哈佛大学拿到了经济学博士,并在25岁的时候成为MIT的助理教授,该校的经济学专业也在他的带领下成为世界经济学领域的翘楚。他的学生Robert M. Solow,Franco Modigliani,Robert C. Merton,Joseph E. Stiglitz 和Paul Krugman,也都获得了诺贝尔经济学奖。
6、伊藤引理
很难想象如果金融学领域没有了随机过程或者伊藤微积分会是怎样的,有些人甚至认为金融学就是伊藤微积分。
KiyosiIto证明了独立变量随机微分方程和该变量函数的随机微分方程之间的关联,其中一个经典的衍生品定价理论就是资产价格演变的对数正态随机微分方程,伊藤引理告诉我们了该资产期权价格的随机微分方程。
简单地说,如果有一个维纳过程X和一个均值为0、方差为dt的正态分布的增量dX,那么增量的函数F(X)可以用泰勒二阶展开表示为:
数学上,更为严格一些的表达方式为:
7、现代组合理论
1952年,HarryMarkowitz第一个提出了投资组合理论的量化模型,这是一个非常优雅的理论,创新性地给出了有效市场组合的概念,同时,对资产的波动性和相关性的意义做了描述。
Markowitz认为,资产组合可以获得比单个资产更好的表现,对于这个“更好”,是基于预期收益和标准方差的量化指标,标准差被用来解释风险。对于任何一个资产组合,在特定风险的条件下,都可以获得一个最优的收益,这个组合的位置连成的曲线称为“有效前沿”,曲线上的每个点都是一个有效组合。
Markowitz因为这项研究成果获得了诺贝尔经济学奖,但实际过程中却很少使用这个理论,原因是这个模型做了很多在理想状况下,而市场中却不存在的假设;同时模型的一些参数,例如波动性、相关性都不容易衡量,但计算的结果对这些参数又十分敏感,从而导致模型的不稳定性。
8、资本资产定价模型
1963年,斯坦福大学的William Sharpe,哈佛大学的JohnLintner和挪威的经济学家Jan Mossin在Markowitz现在投资组合理论的基础之上,用一个简单的模型对风险资产进行定价,即资本资产定价模型(Capital Asset Pricing Model)。
这个模型将资产收益对市场变化的敏感性用β来表示,同时将无风险收益率考虑在内,得出风险资产预期收益率。
CAPM考虑一种特殊形式的功效函数,只包含了收益率的一阶矩和二阶矩,换句话说,就是收益率的分布仅仅由均值和方差决定。
在这些条件下,CAPM认为,权益的成本仅仅由β决定。和现代组合理论类似,CAPM也有一系列过于理想化的假设,导致模型在实证分析中效果不佳。不过,尽管之后出现了套利定价理论等更为复杂精确的模型,CAPM由于它的简单易用,直到现在依然很受欢迎。
9、有效市场假说
1965年,芝加哥大学的经济金融学博士Fama,在他的博士论文中,分析了股票价格变动的行为,并得出结论:短期的股票价格不可预测,近似于随机游走。
股票市场收益是厚尾分布,这意味着一些极端情况的出现相比于正态分布假设下出现的频率更高。
1970年,Fama提出了有效市场的理论,主要分为两大部分:一是将市场的有效性分为三种情况:强势有效、半强势有效和弱势有效,解释了在不同的市场有效性的情况下,公开信息是如何反应到股票价格中;二是认为在无法否定市场平衡的情况下,市场的有效性也无法被拒绝。
这个概念称为“联合假设问题”,意思是市场有效性需要由预期收益来进行验证,但是往往预期收益和实际收益的偏差很大。因此,我们无法证明市场是非有效的,研究者只能不断通过修改模型来减少市场偏差。
Fama的另一个贡献就是他的三因子模型。在资本资产定价模型(CAPM)等传统理论下,投资组合的全部风险溢价由Beta系数表示。但是,这一模型在解释股票市场回报的现实情况上,如一月效应,遇到了诸多挑战。
Fama和French观察发现,市值较小、市值账面比较低的两类公司,更有可能取得优于市场水平的平均回报率。由此,三因子模型通过引入二个新的解释变量:市净率、公司规模与CAPM中的市场指数,一同估计股票的回报水平。
▲注:r是投资组合的期望收益率,Rf是市场无风险收益率,Rm是市场组合的收益率,三个变量的待估系数beta是市场组合风险溢价、规模溢价、市净率溢价三个因素变化对期望收益率的影响。其中,市场组合风险溢价的系数beta概念接近于CAPM模型中的beta系数,公司规模变量SMB是指由市值小的公司组成的投资组合回报与市值大的公司组成的投资组合回报之差,市净率溢价HML是账面价值比较高的公司组成的投资组合回报与比值较低的公司投资组合回报之差。alpha是超额收益率,在理想的情况下,投资组合的超额回报将全部被三因素解释,从而alpha应在统计学意义上等于0。
10、准随机数
1960年代中期,许多学者开始致力于准随机数理论,或者称为低偏差序列理论的研究。这个课题关心的是一系列点在任意维度的分布情况,以尽可能少量的点最大程度覆盖整个空间。
粗略来讲,如果一个序列中随机取出一部分点组成集合B并且和B的测度接近,多次试验取平均值的情况下,可以认为序列的偏差较低。低偏差序列并不是随机,也不是伪随机,它通常用来代替随机均匀分布序列,它通常具有随机数的一些性质,因此在多个领域中发挥重要运用。
相比于纯随机数,准随机数可以更快速地解决一些问题。确定性的方法一般只有在所有数据都完备的时候,给出一个精确解;而准随机数可以随着数据的增加不断地迭代计算,使得结果越来越接近精确值。
概率论中,准随机数可以用来发现特征函数和概率密度函数,以及确定性的函数在微小扰动情况下的导函数,准随机数还可以准确快速地计算高阶矩。
此外,准随机数还可以用于:对于一些不涉及排序的统计指标,如均值、方差、偏度等;复杂的确定性函数的积分、全局最值的计算;一些局部确定性算法的起点,如Newton–Raphson迭代;以及一些搜索算法。
这一数学工具的发展,推动了多元积分、蒙特卡洛方法,数值积分的运用,对金融领域之后三十年的发展起到了重大作用。
11、赌场中的概率论
Ed Thorp,一位美国数学教授、对冲基金经理和21点玩家,是近代概率论的先驱。
他的第一次名声大噪是他发现了,在赌场中取得21点游戏胜利的方法。在数学上,证明了算牌法可以克服赌场优势,并写成了一本畅销书“Beat the Dealer”,这本书甚至使拉斯维加斯的赌场改变原有的规则。
另一方面,Thorp和ClaudeS hannon,一位信息学家,一起发明了世界的第一台可穿戴电脑,因此也被称为“可穿戴电脑之父”。1960年代,Thorp利用他在概率论和数理统计方面的知识,寻找证券市场上的错误定价,建立了第一支基于纯量化金融的对冲基金Princeton/Newport Partners,并因此赚取了大量财富。
12、期权定价
1973年,三位经济学家Fischer Black,Myron Scholes 和Robert Merton给出了欧式期权定价的公式。此公式问世后,带来了期权市场的繁荣。
该公式被广泛使用,虽然在很多情况下被使用者进行一定的改动和修正。很多经验测试表明这个公式足够贴近市场价格,然而也有会出现差异的时候,如著名的“波动率的微笑”。
模型的基本原理是上文所述的几何布朗运动:
以及如下的前提假设条件:
1、金融资产价格服从对数正态分布,而金融资产收益率服从正态分布;
2、在期权有效期内,无风险利率和金融资产收益变量是恒定的;
3、市场无摩擦,即不存在税收和交易成本;
4、金融资产在期权有效期内无红利及其它所得(该假设后被放弃);
5、该期权是欧式期权,即在期权到期前不可实施。
从而,推导出欧式期权价格的偏微分方程:
求解这个方程,即可得到欧式期权价格的表达式:
13、公司债务风险
1974年,Robert Merton从看涨期权的角度来对公司价值和风险进行结构化建模,公司的债务关联到期权的执行价格,债务的期限则对应期权的到期日。如果某一时刻期权价值为0,则说明资产价值小于债务,导致公司破产。
信用风险在90年代初迅速增加,关于这方面的理论和实践运用也在快速扩张,这导致了一些巨大的事件的发生,比如Merton所在的长期资本管理公司的破产。
目前,关于信用风险的理论基于Merton的模型已经有了长足的发展,引入了事件随机发生的泊松过程,比如破产或者违约,已有许多研究成果。
14、蒙特卡罗法
1977年,爱尔兰的经济学家Phelim Boyle通过大量地模拟基础资产未来的收益,并取平均值,以此对期权进行定价,这就是蒙特卡罗方法,也是期权定价的第三种方法(另外两种分别是BSM模型和二叉树)。
这种方法相对比较容易实现,并且使用灵活,在一切特定的情况下,比如股票价格发生突变,蒙特卡罗法定价具有明显的优势。
15、利率定价
20世纪70年代中期,量化金融模型已经非常普遍,但却没有关于利率定价的模型。有些人运用股票期权定价的公式来对利率期权进行定价,但是关于利率计算的完整框架还未建立。
直到1977年,Vasicek提出的利率模型解决了这个问题。他将短期利率抽象为随机游走的模型,利率的价格可以用以下随机微分方程表示:
▲注:Wt是在风险中性框架下的维纳过程,σ表示利率的波动率。
同时,Vasicek也给出了债券定价的随机微分方程:
16、二叉树模型
BSM公式通过随机微积分的方式得到期权定价的偏微分方程,但是在当时金融从业者并不都精通数学和物理,只有极少数的人能理解这个公式。
Boyle提出的蒙特卡罗模拟法是一种易于理解的方法,但是真正将期权定价推向普及的是Cox,Ross, Rubinstein这三位MBA在读的学生,即二叉树模型。
二叉树期权定价模型建立在一个基本假设基础上,即在给定的时间间隔内,证券的价格运动有两个可能的方向:上涨或者下跌。虽然这一假设非常简单,但由于可以把一个给定的时间段细分为更小的时间单位,因而,二叉树期权定价模型适用于处理更为复杂的期权。
假定到期且只有两种可能,而且涨跌幅均为10%。这种假设过于粗糙,可修改为在T分为很多小的时间间隔Δt,而在每一个Δt,股票价格变化由S到Su或Sd。如果价格上涨概率为p,那么下跌的概率为1-p,可以得到:
由BSM方程知:可以假定市场为风险中性。即股票预期收益率μ等于无风险利率r,故有:
17、金融概率论
1979年,MikeHarrison 和DavidKreps,证明了期权价格和高等概率论基于离散时间的关系,而量化金融领域在这之前是完全由经济学家和数学家主导的。
1981年,Harrison和StanPliska通过同样的思路将这一理论扩展到连续时间领域,建立了证券市场连续交易的广义随机过程模型。从那之后到90年代中期,应用数学家几乎都没有受到过多的关注。
18、债券定价
Vasicek利率定价模型的一个问题,是并没有给出一个很好的债券价格。因此,对于固定收益相关的产品及衍生品的定价也无从谈起。
1986年Thomas Ho 和Sang-Bin Lee提出了无套利利率变化模型(AR Model),这个模型以完整的期限结构作为已知条件,继而推出期限结构的无套利机会的随机运动,接着证明了AR模型可以用来为利率或有求偿权相对于观测到的期限结构的定价。
此外,该模型还可以用来对诸多或有求偿权利率进行定价,包括债券期权、可随时偿还的债券等。
19、HJM模型
尽管Ho和Lee展示了如何将简单债券的理论值和市场价格匹配,但是这种方法过于复杂,不易执行。
1992年,David Heath,Robert Jarrow 和Andrew Morton(HJM模型)采用了一种新的基于等鞅测度的方法,对整条收益率曲线的随机变化进行建模,而不是只对短期利率建模然后归纳出整条收益率曲线。
最初的收益率曲线,以及简单利率工具的值,需要作为模型的输入。这些模型不容易用微分方程的形式表达,因此也是基于蒙特卡罗模拟的方式实现。
这个模型的创新主要体现在:
1、直接对远期利率曲线进行随机微积分计算;
2、不需要“反向期限结构”,以避免来自于或有求偿权所带来的市场风险;
3、它通过随机即期利率过程的多个随机因子,来影响期限结构。
20、多资产期权
对于多个资产的期权定价,每一个维度的资产也是遵循对数正态随机游走理论,通过多元积分得到和路径无关的欧式期权的价值。对于此类期权的定价本质就是求积分,这种方式再高维并且正交的情况下会变得很低效,而蒙特卡罗方法可以解决这一问题。
蒙特卡罗积分估计的原理很简单:积分就是平均值乘以一个数量,是一个连续累加的过程。平均值的估计可以通过随机数实现,时间复杂度为O(N),精度大约可以在O(1/N1/2),并且是和维度无关的。
20世纪60年代的时候,学者就对低偏差序列做了很多的研究,并且证明了非随机的分布可以达到O(1/N)的精确度(维度之间可能有小的相关性)。如今,一旦需要用到随机数,低偏差序列还是一个十分有用的工具,也普遍用在了期权定价领域。
1990年初,许多学者(Cheyette,Barrett, Moore, Wilmott等)延续了之前的成就成果,进一步对多资产期权定价问题进行研究,他们将数论的知识应用到金融领域。在他们的研究成果公开之后的几年内,哥伦比亚大学一个不相关的组织将这些工作申请了专利。
21、期权动态对冲
至此,期权定价已经出现了大量的理论计算方法,也在不断地修正和完善,但和实践的结合始终还是不够紧密。
1996年Marco Avellaneda,Antonio Paras, Arnon Levy 和Terry Lyons取得了突破,提出期权定价不确定波动模型。
这是一个非线性的模型,看似很像BSM的微分方程,但是输入的波动率是不同的,它是由V的凸性,也就是V对S的二阶偏导数决定。
在他们的理论出现之前,期权定价的唯一结论就是价值和delta值。所谓动态对冲也只是理论上可行,而这一模型的出现使得理论向实践又迈进了一步。另外一个重要的结论,就是交易所交易期权的理论价格就是它的市场价格,这使复杂的波动率曲面模型显得有些多余。
22、BGM模型
尽管HJM利率模型解决了随机即期利率模型及其相关的问题,但它依然有两个主要的缺陷:模型所需的即期利率是真实存在的;它假设了远期利率的连续分布。
1997年,Alan Brace,Dariusz Gatarek 和Marek Musiela基于实际交易的离散的利率,提出了新的BGM模型。该模型只依赖于可观测的利率:远期LIBOR利率。同时BGM模型和BSM模型具有一致性,是后者的完善和补充。
其中:L(t , Tn ,Tn 1)是远期LIBOR利率,Wt是d维布朗运动,λn(t)是波动率,µt是漂移。
23、CDO定价
1990年代初,信用衍生工具开始爆发,典型的代表是CDO;而另一方面,由于违约涉及到多个参与者,定价的模型非常复杂。
写到这儿,终于有一位在quant界产生一定影响力的华人了。
在CDO以数以百万计的次级住房按揭贷款构成的资产池(asset pool )为基础被发明出来时,人们认为最大的风险在于违约率难以计算。因为住房违约不同于其他形式的小概率事件的债务违约,房价下跌会在不同程度和不同时间影响一大批人。
购房者每月集体偿还的现金量,是已获再融资的购房人的数量和因违约而未还款人的数量的函数,当然还有许多其他变量参数,因此投资不存在保证性的确定利率。过去的华尔街投行们,为了解决这一问题而将CDO 资产按违约可能性划分为不同等级(tranches)的方法并不完善,评级机构对于此类债券的AAA评级也存有很大风险。
David Li(中文名李祥林)的贡献便是将所有的变量进行相关性的量化分析,简单地说,就是计算一下一旦一个购房人还款违约,周围邻居违约的可能性有多大,进一步扩展到再周围的人。当然他真正研究对象要比这个范围宽泛很多,这里只是一个例子。
度量相互之间关联性及关联性程度的高低,是确定按揭贷款债务风险大小的重要部分。以下两个公式是常用的Copula函数:
24、SABR模型
一直以来,对于模型的需求都是计算快速、并且接近市场价格。
Deep Kumar,Andrew Lesniewski 和Diana Woodward提出了随机波动率模型,用来描述衍生品市场的波动率微笑。
注:SABR这个词是stochastic, alpha, beta, rho的缩写,代表了模型的参数。
这个模型通过逼近的方式,避免了数值计算的过程,并且可以得到很高的精度。虽然逼近的方法在金融领域中曾经使用过(比如交易成本的建模),但这是第一次在主流的量化金融领域里面使用。
最后,再来补充几句。
如果说哪个领域最“百花齐放,百家争鸣”,那么肯定非金融领域莫属了。金融市场是一个没有标准答案的地方,同时,金融市场也是没有标准方法论的地方。正因如此,才不断的出现“长江后浪推前浪”。