线性回归,一种理解世界的简单方式|Mixlab机器学习实验课

本次的实验课,对初学者是很好的入手练习项目
MixLab 机器学习实验课
第01课

先设定要预测的 2 个小目标:

1 通过若干特征预测患者的糖尿病指标数值;

2 通过糖尿病指标及若干特征,预测患者性别;

之后,分别通过线性回归和逻辑回归来完成。
#线性回归#
我在实验过程中,先跑了一遍机器学习的经典流程,试验了单变量线性回归。
那如何选择一个特征作为变量呢?我先去找了seaborn库,对diabetes这个数据集进行可视化。而这一步主要是想知道:哪个变量对糖尿病起关键作用、哪些变量之间具有强相关性。
import seaborn as snssns.set(style="darkgrid")sns.pairplot(data.frame, x_vars=["age", "bmi","bp","s1","s2","s3","s4","s5","s6"], y_vars=["target"], hue="sex_category", height=5, aspect=.8, kind="reg");
观察图表,挑选拟合程度较好的变量

根据上述图表得到结论

bmi 和 s5-LTG 对糖尿病指标起关键作用,所以一般bmi系数比较高的人,患糖尿病风险会比较高。
根据图表来分析相关性和拟合度
分析的过程中,得到了 3 个结论
并针对模型的优化做出探索:
1 s1-T细胞 和 s-2 低密度脂蛋白 有强相关性,训练模型是否可以去掉一列?
2 age、s3的拟合度较低,训练模型是否可以去掉?
3 s1、s2在男女上并无大的区别,在逻辑回归的时候是否可以去掉?
我们将在接下来的实验里一一进行验证

将不同的特征添加或删除组合后,进行模型训练,得出如下结果:

1 去掉相关性强的其中一个特征,并不能带来更好的拟合,拟合度0.3872 去掉单变量拟合度低的特征,可以提高拟合度,拟合度0.3993 线性回归预测糖尿病指标数值,实验中最佳拟合度是0.3999
#逻辑回归#
预测糖尿病患者是男性还是女性?
这是一个二分类问题。

考虑所有的特征,拟合度是0.721。考虑到s1、s2在男女上并无大的差别,所以在把这2个特征去掉后做出测试。

结果显示,带来了模型的小幅提升,拟合度0.729 。

实验表明了:

数据决定了机器学习的上限,而算法只是尽可能逼近这个上限

更加详尽的内容和代码移步知识星球

Shadow实验室人数150+

其他有趣的案例分享

数据科学如何帮助YouTube频道,获得更多的浏览量和收入?同理也可以用于公众号、抖音号等平台用户分析。
https://www.justintodata.com/get-more-youtube-views-with-machine-learning/
实验 发现:
1 每分钟燃烧的卡路里是最重要的特征
2 在不同的身体部位进行不同的锻炼并不能提高你的浏览量
3 臀部锻炼很受欢迎
- OVER -
欢迎一起来探索未知世界

添加小编邀您加入“AI训练营”社群
已连续持续更新 34*7 天
MixLab     上海     北京     深圳     广州
更多资料请查阅:Mix+ 人工智能专刊   👇
每期由mixlab社区精选、收录人工智能的相关内容。包括AI产品、AI技术、AI场景、AI投资事件、AI的思维方式等。MIX的主题包括:AR、VR、计算设计、计算广告、智能设计、智能写作、虚拟偶像等。
付费加入星球后,即可免费加入科技前沿外刊群:《新科学家杂志》、《英国金融时报》、《华尔街日报》、《经济学人》、《纽约时报》、《泰晤士报》等当日最新外刊。
(0)

相关推荐