python中的copula:Frank、Clayton和Gumbel copula模型估计与可视化

原文链接:http://tecdat.cn/?p=23646

你可能会问,为什么是copulas?我们指的是数学上的概念。简单地说,copulas是具有均匀边际的联合分布函数。最重要的是,它们允许你将依赖关系与边际分开研究。有时你对边际的信息比对数据集的联合函数的信息更多,而copulas允许你建立关于依赖关系的 "假设 "情景。copulas可以通过将一个联合分布拟合到均匀分布的边际上而得到,这个边际是通过对你感兴趣的变量的cdf进行量化转换而得到的。

这篇文章是关于Python的(有numpy、scipy、scikit-learn、StatsModels和其他你能在Anaconda找到的好东西),但是R对于统计学来说是非常棒的。我重复一遍,R对统计学来说是非常棒的。如果你是认真从事统计工作的,不管你是否喜欢R,你至少应该看看它,看看有哪些包可以帮助你。很有可能,有人已经建立了你所需要的东西。 而且你可以从python中使用R(需要一些设置)。

说了这么多关于R的好处,我们还是要发一篇关于如何在python中使用一个特定的数学工具的文章。因为虽然R很牛,但python确实有令人难以置信的灵活性,可以用来处理其他事务。

这篇文章中即将出现的大部分内容都会用Jupyter Notebooks来构建。

软件

我很惊讶,scikit-learn或scipy中没有明确的copula包的实现。

2D数据的Frank、Clayton和Gumbel copula

测试

第一个样本(x)是从一个β分布中产生的,(y)是从一个对数正态中产生的。β分布的支持度是有限的,而对数正态的右侧支持度是无穷大的。对数的一个有趣的属性。两个边际都被转换到了单位范围。

我们对样本x和y拟合了三个族(Frank, Clayton, Gumbel)的copulas,然后从拟合的copulas中提取了一些样本,并将采样输出与原始样本绘制在一起,以观察它们之间的比较。

#等同于ppf,但直接从数据中构建 
    sortedvar=np.sort(var)

#绘制

for index,family in enumerate(\['Frank', 'clayton', 'gumbel'\]):

#获得伪观测值
            u,v = copula\_f.generate\_uv(howmany)

#画出伪观测值
        axs\[index\]\[0\].scatter(u,v,marker='o',alpha=0.7)

plt.show()

#总样本与伪观测值的对比
sz=300
loc=0.0 #对大多数分布来说是需要的
sc=0.5
y=lognorm.rvs(sc,loc=loc, size=sz)

独立(不相关)数据

我们将从β分布中抽取(x)的样本,从对数正态中抽取(y)的样本。这些样本是伪独立的(我们知道,如果你用计算机来抽取样本,就不会有真正的独立,但好在是合理的独立)。

#不相关的数据:一个β值(x)和一个对数正态(y)。
a= 0.45#2. #alpha
b=0.25#5. #beta

#画出不相关的x和y 
plt.plot(t, beta.pdf(t,a,b), lw=5, alpha=0.6, label='x:beta')

#绘制由不相关的x和y建立的共线性图
title='来自不相关数据的共线性 x: beta, alpha {} beta {}, y: lognormal, mu {}, sigma dPlot(title,x,y,pseudoobs)

相依性(相关)数据

自变量将是一个对数正态(y),变量(x)取决于(y),关系如下。初始值为1(独立)。然后,对于每一个点i, 如果

, 那么

, 其中c是从1的分数列表中统一选择的,否则,

.#相关数据:一个对数正态(y)。

#画出相关数据

np.linspace(0, lognorm.ppf(0.99, sc), sz)
plt.plot(t, gkxx.pdf(t), lw=5, alpha=0.6,

拟合copula参数

没有内置的方法来计算archimedean copulas的参数,也没有椭圆elliptic copulas的方法。但是可以自己实现。选择将一些参数拟合到一个scipy分布上,然后在一些样本上使用该函数的CDF方法,或者用一个经验CDF工作。这两种方法在笔记本中都有实现。


点击标题查阅相关内容

R语言实现 COPULA 算法建模相依性案例分析

左右滑动查看更多

01

02

03

04

因此,你必须自己写代码来为archimedean获取参数,将变量转化为统一的边际分布,并对copula进行实际操作。它是相当灵活的。

#用于拟合copula参数的方法

# === Frank参数拟合
    """
    对这个函数的优化将给出参数 
    """
   #一阶debye函数的积分值    int_debye = lambda t: t/(npexp(t)-1.) 
    debye = lambda alphaquad(int_debye , 
                               alpha
                              )\[0\]/alpha
    diff = (1.-kTau)/4.0-(debye(-alpha)-1.)/alpha

#================
#clayton 参数方法
def Clayton(kTau):
    try:
        return 2.*kTau/(1.-kTau)

#Gumbel参数方法
def Gumbel(kTau):
    try:
        return 1./(1.-kTau)

#================
#copula生成

#得到协方差矩阵P
    #x1=norm.ppf(x,loc=0,scale=1)
    #y1=norm.ppf(y,loc=0,scale=1)
    #return norm.cdf((x1,y1),loc=0,scale=P)

#================
#copula绘图

fig = pylab.figure()
    ax = Axes3D(fig)

ax.text2D(0.05, 0.95, label, transform=ax.transAxes)
        ax.set_xlabel('X: {}'.format(xlabel))
        ax.set_ylabel('Y: {}'.format(ylabel))

#sample是一个来自U,V的索引列表。这样,我们就不会绘制整个copula曲线。
    if plot:
  
        print "绘制copula {}的样本".format(copulaName)
        returnable\[copulaName\]=copulapoints
        if plot:
            zeFigure=plot3d(U\[样本\],V\[样本\],copulapoints\[样本\], label=copulaName,

生成一些输入数据

在这个例子中,我们使用的是与之前相同的分布,探索copula 。如果你想把这段代码改编成你自己的真实数据。

t = np.linspace(0, lognorm.ppf(0.99, sc), sz)

#从一些df中抽取一些样本
X=beta.rvs(a,b,size=sz)
Y=lognorm.rvs(sc,size=sz)
#通过对样本中的数值应用CDF来实现边缘分布
U=beta.cdf(X,a,b)
V=lognorm.cdf(Y,sc)

#画出它们直观地检查独立性
plt.scatter(U,V,marker='o',alpha=0.7)
plt.show()

可视化Copulas

没有直接的构造函数用于高斯或t_Copulas_,可以为椭圆_Copulas_(_Elliptic_ _Copulas_)建立一个更通用的函数。

Samples=700
#选择用于抽样的copula指数
np.random.choice(range(len(U)),Samples)

Plot(U,V)

<IPython.core.display.Javascript object>

Frechét-Höffding边界可视化

根据定理,我们将copula画在一起,得到了Frechét-Höffding边界。

#建立边界为copula的区域
plot_trisurf(U\[样本\],V\[样本\],copula\['min'\]\[样本\],
          c='red') #上限
plot_trisurf(U\[样本\],V\[样本\],copula\['max'\]\[样本\],
           c='green') #下限

(0)

相关推荐

  • 扩增子数据是否应该抽平?还是标准化?

    写在前面 做扩增子数据分析经常遇到一个问题?我们是否应该抽平数据呢?还是只需要做标准化就可以了?在微生信生物群中有许多人都问过这样的问题.这里我也将这个答案分享给大家. 抽平 实际上,抽平被许多数据分 ...

  • ​多大分辨率图像做分类更适合?浙大&华为&国科大等提出Dynamic Resolution Network,降低计算量还提性能!

    ▊ 写在前面 为了获得更高的精度,深卷积神经网络(CNN)通常具有复杂的设计,具有许多卷积层和可学习的参数.为了减轻在移动设备上部署网络的成本,最近的工作开始研究在预定义的结构中挖掘冗余的模块和参数. ...

  • 基于DNA甲基化的分子亚型构建发5+分

    Molecular subtypes based on DNA methylation predict prognosis in colon adenocarcinoma patients基于DNA甲 ...

  • 迈克尔·克莱顿

    迈克尔·克莱顿 Michael Clayton (2007) 当前为高清资源,最后更新于2年前 导演:托尼·吉尔罗伊 编剧:托尼·吉尔罗伊 主演:乔治·克鲁尼 / 汤姆·威尔金森 / 蒂尔达·斯文顿 ...

  • Python 中的函数装饰器和闭包

    函数装饰器可以被用于增强方法的某些行为,如果想自己实现装饰器,则必须了解闭包的概念. 装饰器的基本概念 装饰器是一个可调用对象,它的参数是另一个函数,称为被装饰函数.装饰器可以修改这个函数再将其返回, ...

  • Python中tuple和list的区别?基础学习!

    想必大家都知道,Python数据类型有很多种,其中有两个对象的写法非常相似,它就是tuple元组和list列表,让人傻傻分不清楚.那么你知道Python中tuple和list有什么区别吗?我们来看看具 ...

  • Python中缩进是什么?入门分享!

    众所周知,Python是一门独特的编程语言,它语法清晰.简单易学,而且Python是通过缩进来识别代码块的,因为一般的语言都是通过{}或者end来作为代码块标记. Python中缩进是什么? 要求严格 ...

  • python中的内置函数

    前言 本人只在csdn写博客 内置函数 介绍 一. 数学运算 abs()求绝对值函数 round() 近似取值 pow()求指数 divmod()求商和余数 max()求最大值和min()求最小值 s ...

  • 【Python核心编程笔记】一、Python中一切皆对象

    Python中一切皆对象 本章节首先对比静态语言以及动态语言,然后介绍 python 中最底层也是面向对象最重要的几个概念-object.type和class之间的关系,以此来引出在python如何做 ...

  • 【青少年编程】Python中的分号

    今天有小朋友问我以下的选择题: 关于Python赋值语句,以下选项中不合法的是() A. x = (y=1) B. x, y = y, x C. x = y = 1 D. x = 1; y = 1 这 ...

  • 关于python中if __name__ == '__main__':的理解

    调试代码的时候都会写上if __name__ == '__main__':,然后写上数据进行调试,一直没有理解到这句的含义,就照搬着写,到现在才算理解到,大概说下自己的见解. 1.在python里__ ...

  • 彻底搞懂Python 中的 import 与 from import

    对不少 Python 初学者来说,Python 导入其他模块的方式让他们很难理解.什么时候用import xxx?什么时候用from xxx import yyy?什么时候用from xxx.yyy ...

  • Python中的*args和**kwargs

    在Python中的代码中经常会见到这两个词 args 和 kwargs,前面通常还会加上一个或者两个星号.其实这只是编程人员约定的变量名字,args 是 arguments 的缩写,表示位置参数:kw ...