ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤(特征分析与特征处理)+分类模型设计)
ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤+分类模型设计)
一、总体思路框架
二、特征工程详细步骤(特征分析与特征处理)
1、获取数据集,并确定新数据集的规模
2、确定数据集每个属性的类型
3、对数据集统计特征
Mean = 0.053892307692307684Standard Deviation = 0.04641598322260027
Boundaries for 4 Equal Percentiles
[0.0058, 0.024375, 0.04405, 0.0645, 0.4264]
Boundaries for 10 Equal Percentiles
[0.0058, 0.0141, 0.022740000000000003, 0.027869999999999995, 0.03622, 0.04405, 0.05071999999999999, 0.059959999999999986, 0.07794000000000001, 0.10836, 0.4264]
Unique Label Values
{'M', 'R'}
Counts for Each Value of Categorical Label
['M', 'R']
[111, 97]
4、利用python工具包输出
(1)、分位图查找异常点
(2)、输出头数据和尾数据
(3)、输出统计信息
5、对整个数据集各个特征(属性)PCP(平行坐标图)可视化分析
6、属性之间关系的关系SP可视化
7、特殊属性和标签的关系SP可视化
8、利用皮尔逊相关系数计算任意两个特征(属性)之间相关程度
(1)、如图分别计算的是2&3、2&21两个相关度数值
分别计算第2&3、2&21个属性参数相关度,发现2&3之间相关度比2&21高!
9、Heat Map热图:利用皮尔森相关系数矩阵,且使用HM可视化变量之间的相关性
三、测试该数据集上度量分类器性能
T1、OLS构建分类器
1、输出结果
2、ROC、AUC可视化分析
T2、RiR构建分类器+AUC度量分离器性能
赞 (0)