Python相关分析—一个金融场景的案例实操

哲学告诉我们:世界是一个普遍联系的有机整体,现象之间客观上存在着某种有机联系,一种现象的发展变化,必然受与之关联的其他现象发展变化的制约与影响,在统计学中,这种依存关系可以分为相关关系和回归函数关系两大类,本次分享,jacky将跟您分享如何用python做相关关系,并以真实金融案例为依托,深入浅出,探讨相关分析在实际工作中应用。

基础铺垫

  • 相关系数(correlation coefficient)

    • 相关系数是变量间关联程度的最基本测度之一,如果我们想知道两个变量之间的相关性,那么我们就可以计算相关系数,进行判定。
  • 相关系数基本特征

    • 方向

      • 正相关:两个变量变化方向相同

      • 负相关:两个变量变化方向相反

    • 量级(magnitude)

      • 低度相关:0 ≤ |r|< 0.3

      • 中度相关:0.3 ≤ |r|< 0.8

      • 高度相关:0.8 ≤ |r|< 1

  • 散点图

    • 在进行相关分析之前,通常会绘制散点图来观察变量之间的相关性,如果这些数据在二维坐标轴中构成的数据点分布在一条直线上的周围,那么就说明变量间存在线性相关关系,如下图所示:

如何用Python计算相关系数

计算公式

金融场景案例实操

我们知道影响金融产品销量的因素很多,作为用户来讲,最直接的参考指标一定是产品的利率,金融机构为了吸引更多的用户能够持有或购买某项金融产品时,往往会推出加息活动,那么加息活动这个变量与实际销量之间是否存在相关关系?——下面jacky与您一同探讨与解决这个问题:

1.手工写代码计算相关系数

  • 根据相关系数的计算公式,我们首先要计算出每个向量的z分数

    • z分数的计算公式:每个值减去向量的均值再除以标准差 ZX=(X-XMean)/XSD
  1. #---author:朱元禄---
  2. import numpy
  3. X = [52,19,7,33,2]
  4. Y = [162,61,22,100,6]
  5. #均值
  6. XMean = numpy.mean(X)
  7. YMean = numpy.mean(Y)
  8. #标准差
  9. XSD = numpy.std(X)
  10. YSD = numpy.std(Y)
  11. #z分数
  12. ZX = (X-XMean)/XSD
  13. ZY = (Y-YMean)/YSD
  • 根据上面相关系数的计算公司,我们套公式,手工计算一下
  • 也可以在python内直接计算:
  1. #相关系数
  2. r = numpy.sum(ZX*ZY)/(len(X))

2.使用numpy的corrcoef方法计算

numpy.corrcoef(X,Y)
  • 我们可以看到用corrcoef计算的值和我们手工计算的值是一样的,这里计算得到的是一个对称矩阵,对角线的位置都是1,代表向量和本身完全自相关,1行2列和2行1列的值一样,因为第一个向量和第二个向量的相关系数等于第二个向量和第一个向量的相关系数,所以为对称矩阵

3.使用pandas.DataFrame的corr方法计算

  1. import pandas
  2. data = pandas.DataFrame({
  3. 'X':X,
  4. 'Y':Y
  5. })
  6. data.corr()

更深入的探讨:数据分析的陷阱-安斯库姆四重奏

相关系数是理解两个向量是否相关的非常好用的指标,但是在实际工作中,我们不能过分依赖相关系数,为什么这么说呢?因为统计指标是有局限性的。

1.Anscombe’s quartet

  • 统计学里大名鼎鼎的Anscombe’s quartet是什么?(jacky有时真搞不懂统计学一些术语的翻译,quartet怎就翻译成了“四重奏”,既然得到了统计大佬们的公认,我也不好多说了)
  • 先看下下面四个散点图,这四幅图表述的数据特征差异有对大,在散点图赏是不是一目了然?
  • 下面我们来计算下它们的统计特性,竟然惊人的一样
性质 数值
X的平均数 9 (数据分析部落)
X的方差 11 (公众号:shujudata)
Y的平均数 7.5
Y的方差 4.12
X与Y之间的相关系数 0.816
线性回归线 y=3.00+0.500x

2.jacky解读

首先作为晚辈,要对统计学大师的学术成果表示尊敬与尊重。

但是,在时间工作中,Anscombe’s quartet的数据分析陷阱,作为一个合格的数据科学从业者,都是会规避的,首先我们做数据清理的时候,就规避了离群值对统计的影响,并且,随着机器学习,深入学习的发展,用方差,平均数来描述数据是最基本的,这些数据描述的维度是远远不够的。

数据科学的探索,永不止境,任何科学理论都可能被推翻。作为体制外的研究者,服务好我们的公司和客户,让数据真正的发挥商业价值,才是最重要的。在巨人的肩膀上,是你我的机会,更是这个时代留给我们最好的礼物!

(0)

相关推荐

  • Python|线代矩阵问题

    问题描述 Python中含有丰富的库提供我们使用,学习数学分支线性代数时,矩阵问题是核心问题.Numpy库通常用于python中执行数值计算,并且对于矩阵操作做了特殊的优化,numpy库通过向量化避免 ...

  • 相关系数高达0.8又如何?

    书上看到一个很好玩的例子 #call up and explore the data data(anscombe) attach(anscombe) anscombe cor(x1, y1) #cor ...

  • 六西格玛管理工具——相关分析

    六西格玛管理工具--相关分析 在六西格玛管理的分析阶段(analyze)中,分析问题出现的原因是至关重要的.这时,统计学中的相关分析及回归分析就是很有力的六西格玛工具. 如果同时获得了两个或多个连续型 ...

  • JASP统计分析实践:相关分析

    案例数据源:雇员数据 请在本公众号后台回复关键词[雇员]获取数据下载链接. 分析目的:试分析初始薪金水平与当前薪金水平的相关性. 初始薪金和当前薪金两个变量均为连续数据,如果满足多元正态分布,那么可以 ...

  • 方程组的解与秩

    方程组的解与系数矩阵的秩相关,解的情况由矩阵的自身的信息与秩的信息确定.AX=b,是一个线性方程组,A为m*n系数矩阵.方程组有解说明了向量b在系数矩阵的列空间中,可以为列向量线性表示.讨论解的情况关 ...

  • 什么是Scikit-learn?Python机器学习库介绍!

    对Python语言有所了解的人都知道Python简单,拥有丰富的第三方库,可用于人工智能.机器学习.网络爬虫.web开发等领域,而这篇文章小编想要为大家介绍一下最有名,也是专门面向机器学习的一个库,它 ...

  • 【3DMAX建模】中国古风特色房子场景【案例实操讲解】

    【3DMAX建模】中国古风特色房子场景【案例实操讲解】

  • 风云博客:垂直细分领域赚钱案例实操

    前面的文章,一直强调,垂直细分领域赚钱,是现在普通人互联网赚钱最正确的方式.   今天分享圈内一个朋友小美在做的项目,大家可以参考一些玩法,找到自己的领域.   她做的这个领域还是比较吸金的.   有 ...

  • 【案例实操】如何在TIA Portal 下对S7 -1200进行面向运动控制?

    S7-1200 CPI将微处理器.集成电源.输入和输出电路.内置PROFINET.高速运动控制I/o以及板载模拟量输入组合到一个设计紧凑的外壳中来形成功能强大的控制器.S7-1200可以方便地执行速度 ...

  • 日本纸张纸浆商事株式会社RPA案例实操分享

    UiBot东京特约观察  文.图丨马磊 日本纸张纸浆商事株式会社(日本紙パルプ商事株式会社)成立于1845年(弘化2年),位于东京都中央区,拥有员工3692人,是一家历史悠久的从事纸制品生产销售等业务 ...

  • 日本大型时装企业RPA案例实操

    日本大型时装企业--株式会社青木(株式会社AOKI),成立于2008年4月1日,是株式会社青木控股(株式会社AOKI Holdings)的全资子公司,被东京奥组委指定为2020年东京奥运会官方商务正装 ...

  • 大量数据+案例实操,教你攻克空气源热泵的暖气片改造难题

    热泵商学院 讲师_王言明  图_陈进周 空气源热泵采暖,对暖气片的改造应该是最多的,北方很多建筑都是用的暖气片,但暖气片改造也是最难的.空气源热泵说实话和暖气片并不是最佳搭档,原因有好几个: 1.暖气 ...

  • 一建陈明最新总结:132页案例实操讲解,对应80%考纲内容

    随着一建报考的人数越来越多,实务的考察方式也逐渐开始严格起来,其中市政专业作为报考的大热门首当其中,如果自身没有积累足够的施工经验,那么对于市政考试内65%以上与实操有关联的题目,都没有办法解决. 为 ...

  • SaaS产品设计,从0到1案例实操

    王戴明  · 4小时前 关注 8000字长文,带你设计一款标准化SaaS 编者按:本文来自微信公众号"ToB老人家"(ID:ToBlaorenjia),作者:王戴明,36氪经授权发 ...

  • 公司控制权安排方法及案例实操手册

    这是一份[公司控制权安排方法及案例实操手册]的干货资料,共533页! 内容目录如下: 第1章 控制权安排的基本逻辑和方法 第2章 张兰和俏江南的资本故事 第3章 葛文耀和平安角力上海家化 第4章山水的 ...