R语言用局部加权回归(Lowess)对logistic逻辑回归诊断和残差分析

2024-08-01 05:57:04

原文链接：http://tecdat.cn/?p=22328

目前，回归诊断不仅用于一般线性模型的诊断，还被逐步推广应用于广义线性模型领域（如用于logistic回归模型），但由于一般线性模型与广义线性模型在残差分布的假定等方面有所不同，所以推广和应用还存在许多问题。鉴于此，本文使用图表考察logistic模型的拟合优度。

如何处理从逻辑回归中得到的残差图？为了更好地理解，让我们考虑以下数据集

glm(Y~X1+X2,family=binomial)

如果我们使用R的诊断图，第一个是残差的散点图，对照预测值。

> plot(reg,which=1)

也可以

> plot(predict(reg),residuals(reg)) > abline(h=0,lty=2 )

为什么我们会有这两条线的点？因为我们预测了一个变量取值为0或1的概率。当我们使用彩色时，可以更清楚地看到，如果真值是0，那么我们总是预测得更多，残差必须是负的（蓝点），如果真值是1，那么我们就低估了，残差必须是正的（红点）。当然，还有一个单调的关系

> plot(predict(reg),residuals(reg) )

点正好在一条平滑的曲线上，是预测值的一个函数。

现在，从这个图上看不出什么。我们运行一个局部加权回归，看看发生了什么。

lowess(predict(reg),residuals(reg)

这是我们在第一个诊断函数中所得到的。但在这个局部回归中，我们没有得到置信区间。我们可以假设图中水平线非常接近虚线吗？

segments( fit+2* se.fit, fit-2* se.fit )

可以。这个图表表明什么？

事实上，该图可能不是观察残差的唯一方法。如果不把它们与两个解释变量绘制在一起呢？例如，如果我们将残差与第二个解释变量作对比，我们会得到

> lines(lowess(X2,residuals(reg))

对照一下，该图与我们之前的图相似。

如果我们现在看一下与第一个解释变量的关系：

> lines(lowess(X1,residuals(reg))

因为我们可以清楚地识别出二次方的影响。这张图表明，我们应该对第一个变量的平方进行回归。而且可以看出它是一个重要的影响因素。

现在，如果我们运行一个包括这个二次方效应的回归，我们会得到什么。

glm(Y~X1+I(X1^2)+X2,family=binomial)

看起来和第一个逻辑回归模型结果类似。那么本文的观点是什么？观点是

图形可以用来观察可能出错的地方，对可能的非线性转换有更多的直觉判断。
图形不是万能的，从理论上讲，残差线应该是一条水平的直线。但我们也希望模型尽可能的简单。所以，在某个阶段，我们也许应该依靠统计检验和置信区间。

使用Python进行机器学习：从0到1，构建回归模型（附完整教程）

摘要在本文中,我将使用数据科学和Python来解释回归用例的主要步骤,从数据分析到理解模型输出. 我将介绍一些非常有用的Python代码,当你遇到相同的情况时,只需要复制,粘贴,运行,就能轻松使用. ...
R笔记：多重线性回归（三）_模型评估与诊断

转自个人微信公众号[Memo_Cleon]的统计学习笔记:R笔记:多重线性回归(三)_模型评估与诊断. 在前面的两次R笔记中,我们已经介绍了多重线性回归的 <模型拟合>和<适用条件的 ...
逻辑回归:建立在回归基础上的一种分类模型

机器学习有3大类算法,回归,分类和聚类,其中回归和分类属于监督学习,而聚类则属于非监督学习.线性回归和逻辑回归是机器学习中最为基础,最广为人知的模型. 从名字上看,二者都带有回归二字,好像都是用于解决 ...
各类统计方法R语言实现（七）

今天是各类统计方法R语言实现的第七期,我们主要介绍多重共线性.异常观察值的分析和回归模型改进措施. 多重共线性多重共线性是指线性回归模型中的解释变量之间由于存在强相关关系而使模型估计失真或难以估计准 ...
R笔记：多重线性回归（二）_适用条件考察

转自个人微信公众号[Memo_Cleon]的统计学习笔记:R笔记:多重线性回归(二)_适用条件考察.书接上回--我们在<<多重线性回归(一)_模型拟合>>一文中已经建立了回归模 ...
R语言用LOESS(局部加权回归)季节趋势分解（STL）进行时间序列异常检测

原文链接:http://tecdat.cn/?p=22632 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究,STL是 "使用_ ...
R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率

原文链接:http://tecdat.cn/?p=24067 此示例基于电视节目的在线收视率.我们将从抓取数据开始. # 加载软件包. packages <- c("gplot2&qu ...
R语言实现偏最小二乘回归法 partial least squares (PLS)回归

原文链接:http://tecdat.cn/?p=8652 偏最小二乘回归是一种回归形式 . 当使用pls时,新的线性组合有助于解释模型中的自变量和因变量. 在本文中,我们将使用pls在" ...
R语言Bootstrap的岭回归和自适应LASSO回归可视化

原文链接:http://tecdat.cn/?p=22921 拟合岭回归和LASSO回归,解释系数,并对其在λ范围内的变化做一个直观的可视化. # 加载CBI数据 # 子集所需的变量(又称,列) CB ...
R语言样条曲线、泊松回归模型估计女性直肠癌患者标准化发病率（SIR）、死亡率（SMR）

原文链接:http://tecdat.cn/?p=23242 简介标准化发病率(SIR)或死亡率(SMR)是观察病例和期望病例的比率.观察到的病例是队列中病例的绝对数量.期望病例是通过将队列中的人- ...
R语言高维数据惩罚回归方法：主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据（含练习题）

原文链接:http://tecdat.cn/?p=23378 1 介绍在本文中,我们将研究以下主题证明为什么低维预测模型在高维中会失败. 进行主成分回归(PCR). 使用glmnet()进行岭回归 ...
R语言JAGS贝叶斯回归模型分析博士生延期毕业完成论文时间

原文链接: http://tecdat.cn/?p=23652 本文为读者提供了如何进行贝叶斯回归的基本教程.包括完成导入数据文件.探索汇总统计和回归分析. 在本文中,我们首先使用软件的默认先验设置. ...
R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量

原文链接:http://tecdat.cn/?p=18550 我根据泊松Poisson回归.GAM样条曲线模型对一个十字路口的骑自行车者的数量进行预测, str(base)'data.frame': ...
R语言用向量自回归（VAR）进行经济数据脉冲响应研究分析

原文链接:http://tecdat.cn/?p=9368 自从Sims(1980)发表开创性的论文以来,向量自回归模型已经成为宏观经济研究中的关键工具.这篇文章介绍了VAR分析的基本概念,并指导了简 ...

R语言用局部加权回归(Lowess)对logistic逻辑回归诊断和残差分析

原文链接：http://tecdat.cn/?p=22328

相关推荐