线性回归，一种理解世界的简单方式｜Mixlab机器学习实验课

2026-04-19 10:11:15

本次的实验课，对初学者是很好的入手练习项目

MixLab 机器学习实验课

第01课

先设定要预测的 2 个小目标：

1 通过若干特征预测患者的糖尿病指标数值；

2 通过糖尿病指标及若干特征，预测患者性别；

之后，分别通过线性回归和逻辑回归来完成。

#线性回归#

我在实验过程中，先跑了一遍机器学习的经典流程，试验了单变量线性回归。

那如何选择一个特征作为变量呢？我先去找了seaborn库，对diabetes这个数据集进行可视化。而这一步主要是想知道：哪个变量对糖尿病起关键作用、哪些变量之间具有强相关性。

import seaborn as snssns.set(style="darkgrid")sns.pairplot(data.frame, x_vars=["age", "bmi","bp","s1","s2","s3","s4","s5","s6"], y_vars=["target"], hue="sex_category", height=5, aspect=.8, kind="reg");

观察图表，挑选拟合程度较好的变量

根据上述图表得到结论：

bmi 和 s5-LTG 对糖尿病指标起关键作用，所以一般bmi系数比较高的人，患糖尿病风险会比较高。

根据图表来分析相关性和拟合度

分析的过程中，得到了 3 个结论

并针对模型的优化做出探索：

1 s1-T细胞和 s-2 低密度脂蛋白有强相关性，训练模型是否可以去掉一列？

2 age、s3的拟合度较低，训练模型是否可以去掉？

3 s1、s2在男女上并无大的区别，在逻辑回归的时候是否可以去掉？

我们将在接下来的实验里一一进行验证

将不同的特征添加或删除组合后，进行模型训练，得出如下结果：

1 去掉相关性强的其中一个特征，并不能带来更好的拟合，拟合度0.3872 去掉单变量拟合度低的特征，可以提高拟合度，拟合度0.3993 线性回归预测糖尿病指标数值，实验中最佳拟合度是0.3999

#逻辑回归#

预测糖尿病患者是男性还是女性？

这是一个二分类问题。

考虑所有的特征，拟合度是0.721。考虑到s1、s2在男女上并无大的差别，所以在把这2个特征去掉后做出测试。

结果显示，带来了模型的小幅提升，拟合度0.729 。

实验表明了：

数据决定了机器学习的上限，而算法只是尽可能逼近这个上限。

更加详尽的内容和代码移步知识星球

Shadow实验室人数150+

其他有趣的案例分享

数据科学如何帮助YouTube频道，获得更多的浏览量和收入？同理也可以用于公众号、抖音号等平台用户分析。

https://www.justintodata.com/get-more-youtube-views-with-machine-learning/

实验新发现：

1 每分钟燃烧的卡路里是最重要的特征

2 在不同的身体部位进行不同的锻炼并不能提高你的浏览量

3 臀部锻炼很受欢迎

- OVER -

欢迎一起来探索未知世界

添加小编邀您加入“AI训练营”社群

已连续持续更新 34*7 天

MixLab 上海北京深圳广州

更多资料请查阅：Mix+ 人工智能专刊 👇

每期由mixlab社区精选、收录人工智能的相关内容。包括AI产品、AI技术、AI场景、AI投资事件、AI的思维方式等。MIX的主题包括：AR、VR、计算设计、计算广告、智能设计、智能写作、虚拟偶像等。

付费加入星球后，即可免费加入科技前沿外刊群：《新科学家杂志》、《英国金融时报》、《华尔街日报》、《经济学人》、《纽约时报》、《泰晤士报》等当日最新外刊。

何为共线性, 跟过拟合有啥关联?

何为共线性, 跟过拟合有啥关联? 多变量线性回归中,变量之间由于存在高度相关关系而使回归估计不准确. 共线性会造成冗余,导致过拟合. 解决方法:排除变量的相关性/加入权重正则.
R语言用线性回归模型预测空气质量臭氧数据

原文链接:http://tecdat.cn/?p=11387 尽管线性模型是最简单的机器学习技术之一,但它们仍然是进行预测的强大工具.这尤其是由于线性模型特别容易解释这一事实.在这里,我将讨论使用空气 ...
【R数据处理】GLM（广义线性模型）分析

" 知其然也要知其所以然." --free傻孩子 "R实战"专题·第15篇编辑 | free傻孩子 4306字 |10分钟阅读本期推送内容在数 ...
协方差矩阵的意义及其应用，线性代数和各种应用之间的一个联系

数学的魅力在于,简单的模型可以做伟大的事情." 现代数据科学中并不缺乏花哨的算法和技术.技术很容易学习,但也很容易落后.然而,从长远来看,数学的基础可以使人受益.协方差矩阵是一个简单而有用的 ...
【学习笔记】传感器技术（9）：管式光纤光栅温度传感器封装与传感特性研究

摘要: 介绍了两种管式光纤光栅温度传感器的金属型封装方案,对其温度传感特性进行了实验研究与分析.使用外径5 mm.内径4 mm.长度50 mm的管式结构不锈钢材料对光纤光栅进行探头式保护型封装以及 ...
科学是一种理解世界的方式

科技前沿商业世界行业观察认知科学哲学思考▲这个世界残酷,又温暖. 一切知识,一旦人类忘记了它出现的条件.回答的问题以及所起到的作用,都会丧失其科学特性.--本杰明·法伦丁说一说科普.大家应该都有过一 ...
读书笔记《应对焦虑》：九种应对焦虑的简单方式

最近接触到存在焦虑症的朋友,据说全球大约12%的人口患有焦虑症,女性的发生率约为男性的两倍.最常见的为对于特定事物的恐惧症,将近12%的人在一生中的某个时候曾有此类问题,社交焦虑症则占了10%. 于是 ...
这3种父母爱孩子的方式，可能不被孩子理解，你知道么

当听到孩子说:妈妈不爱我,爱的只是考满分的我.相信如果是自己的孩子这样说,估计父母心中都是百味陈杂的吧!要知道,在这个世界上,最爱孩子的,永远都是父母.很多父母爱孩子,甚至超过了爱自己.
阳台就该这样封闭，3种值得大家参考的方式，简单实用的！

哈喽,大家好!我是您的爱家装修解说员,希望通过小编之手,让你更加彻底的了解家装的世界!阳台就该这样封闭,3种值得大家参考的方式,简单实用的今天要给大家带来的内容是关于阳台设计的,我们该如何打造阳台区域 ...
我的世界：三种伤害最高的攻击方式，遇到他们要尽量远离！

在我的世界里,不同的生物攻击的伤害有明显的区别,少的只能打掉玩家1点血,多的一下就可以清空玩家的血管.实际上生物对玩家造成的伤害不是由生物种类划分的,而是用攻击方式划分的,看完就明白要远离哪些生物了. ...
贾琏追求女人的三种方式，每一种都大同小异，简单而有效

贾琏是一个花花公子,在他的世界里只有两种东西最重要,一种是钱,一种是女人. 贾琏追求女人与追求钱的方式不同,他的方法简单直接,却很有效. 第一种方式,直接给钱红楼梦第二十一回,巧姐生病,王熙凤和平儿 ...
摄影每周评（第136期）点评专辑|摄影是一种看世界的方式

让我满意的摄影作品 2021第007期每周评总第136期每周二投稿|每周一发布 "开心学摄影,每周有点评",摄影每周评交流群,旨在交流研习摄影技术,记录.发现和创意生活的美. ...
【景观笔记146】用蒙太奇的方式理解世界

上期的文章点这里:[景观笔记145]怎么样积累设计经验呢? 大家好,我是小蚂哥.上期给大家介绍了我积累设计经验的几个步骤,有朋友觉得说得太笼统,应该就具体案例这块展开讲讲我是怎么快速学习的. 我的答案 ...
期货交易，用一种最简单方式来跟涨或者跟跌

生活,一半是回忆,一半是继续: 投资,一半是复盘,一半是预期. -- ...

线性回归，一种理解世界的简单方式｜Mixlab机器学习实验课

相关推荐