ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤(特征分析与特征处理)+分类模型设计)

ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤+分类模型设计)


一、总体思路框架

二、特征工程详细步骤(特征分析与特征处理)

1、获取数据集,并确定新数据集的规模

2、确定数据集每个属性的类型

3、对数据集统计特征

Mean = 0.053892307692307684Standard Deviation =  0.04641598322260027

Boundaries for 4 Equal Percentiles
[0.0058, 0.024375, 0.04405, 0.0645, 0.4264]

Boundaries for 10 Equal Percentiles
[0.0058, 0.0141, 0.022740000000000003, 0.027869999999999995, 0.03622, 0.04405, 0.05071999999999999, 0.059959999999999986, 0.07794000000000001, 0.10836, 0.4264]

Unique Label Values
{'M', 'R'}

Counts for Each Value of Categorical Label
['M', 'R']
[111, 97]

4、利用python工具包输出

(1)、分位图查找异常点

(2)、输出头数据和尾数据

(3)、输出统计信息

5、对整个数据集各个特征(属性)PCP(平行坐标图)可视化分析

6、属性之间关系的关系SP可视化

7、特殊属性和标签的关系SP可视化

8、利用皮尔逊相关系数计算任意两个特征(属性)之间相关程度

(1)、如图分别计算的是2&3、2&21两个相关度数值

分别计算第2&3、2&21个属性参数相关度,发现2&3之间相关度比2&21高!

9、Heat Map热图:利用皮尔森相关系数矩阵,且使用HM可视化变量之间的相关性

三、测试该数据集上度量分类器性能

T1、OLS构建分类器

1、输出结果

2、ROC、AUC可视化分析

T2、RiR构建分类器+AUC度量分离器性能

(0)

相关推荐