先设定要预测的 2 个小目标:
1 通过若干特征预测患者的糖尿病指标数值;
2 通过糖尿病指标及若干特征,预测患者性别;
我在实验过程中,先跑了一遍机器学习的经典流程,试验了单变量线性回归。那如何选择一个特征作为变量呢?我先去找了seaborn库,对diabetes这个数据集进行可视化。而这一步主要是想知道:哪个变量对糖尿病起关键作用、哪些变量之间具有强相关性。import seaborn as sns
sns.set(style="darkgrid")
sns.pairplot(data.frame,
x_vars=["age", "bmi","bp","s1","s2","s3","s4","s5","s6"],
y_vars=["target"],
hue="sex_category",
height=5, aspect=.8, kind="reg");
根据上述图表得到结论:
bmi 和 s5-LTG 对糖尿病指标起关键作用,所以一般bmi系数比较高的人,患糖尿病风险会比较高。1 s1-T细胞 和 s-2 低密度脂蛋白 有强相关性,训练模型是否可以去掉一列?2 age、s3的拟合度较低,训练模型是否可以去掉?3 s1、s2在男女上并无大的区别,在逻辑回归的时候是否可以去掉?
将不同的特征添加或删除组合后,进行模型训练,得出如下结果:
1 去掉相关性强的其中一个特征,并不能带来更好的拟合,拟合度0.3872 去掉单变量拟合度低的特征,可以提高拟合度,拟合度0.3993 线性回归预测糖尿病指标数值,实验中最佳拟合度是0.3999
考虑所有的特征,拟合度是0.721。考虑到s1、s2在男女上并无大的差别,所以在把这2个特征去掉后做出测试。
结果显示,带来了模型的小幅提升,拟合度0.729 。
实验表明了:
数据决定了机器学习的上限,而算法只是尽可能逼近这个上限。
更加详尽的内容和代码移步知识星球
其他有趣的案例分享
数据科学如何帮助YouTube频道,获得更多的浏览量和收入?同理也可以用于公众号、抖音号等平台用户分析。https://www.justintodata.com/get-more-youtube-views-with-machine-learning/2 在不同的身体部位进行不同的锻炼并不能提高你的浏览量每期由mixlab社区精选、收录人工智能的相关内容。包括AI产品、AI技术、AI场景、AI投资事件、AI的思维方式等。MIX的主题包括:AR、VR、计算设计、计算广告、智能设计、智能写作、虚拟偶像等。付费加入星球后,即可免费加入科技前沿外刊群:《新科学家杂志》、《英国金融时报》、《华尔街日报》、《经济学人》、《纽约时报》、《泰晤士报》等当日最新外刊。