R语言Bootstrap的岭回归和自适应LASSO回归可视化 / 四六文摘

原文链接：http://tecdat.cn/?p=22921

拟合岭回归和LASSO回归，解释系数，并对其在λ范围内的变化做一个直观的可视化。

# 加载CBI数据 # 子集所需的变量（又称，列） CBI_sub <- CBI


# 重命名变量列(节省大量的输入)

names(CBI_sub)\[1\] <- "cbi"
# 只要完整案例，删除缺失值。

CBI\_sub <- CBI\_sub\[complete.cases(CBI_sub),\]

#现在检查一下CBI_sub里面的内容 names(CBI_sub)

# 设置控制参数 control = method = "cv",number=5) # 5折CV

cbi ~ ., data = CBI_sub, method = "glmnet", trControl = control, preProc = c("center","scale"), # 中心和标准化数据 # 得到系数估计值（注意，我们真正关心的是β值，而不是S.E.）。 coef(ridge_caret.fit, bestTune$lambda)

cbi ~ ., data = CBI_sub, method = "glmnet", tuneGrid = expand.grid(alpha = 1,

# 获得系数估计 coef(lasso_caret,bestTunelambda)

使用glmnet软件包中的相关函数对岭回归和lasso套索回归进行分析。

准备数据

注意系数是以稀疏矩阵格式表示的，因为沿着正则化路径的解往往是稀疏的。使用稀疏格式在时间和空间上更有效率

# 拟合岭回归模型 glmnet(X, Y, alpha = 0)

#检查glmnet模型的输出（注意我们拟合了一个岭回归模型 #记得使用print()函数而不是summary()函数 print(glmnet.fit)

# 输出最佳lamda处的岭回归coefs

coef(glmnet.fit, s = lambda.1se)

绘制结果

# plot(ridge_glmnet.fit, label = TRUE)

图中显示了随着lambda的变化，模型系数对整个系数向量的L1-norm的路径。上面的轴表示在当前lambda下非零系数的数量，这也是lasso的有效自由度（df）。

par(mfrow=c(1,2)) # 建立1乘2的绘图环境 plot\_glmnet(ridge\_glmnet.fit, xvar = "lambda", label=6, xlab = expression(paste("log(", lambda, ")")), ylab = expression(beta)) # "标签"是指你想让图表显示的前N个变量。