机器学习入门:4大基础数学技能一览

https://m.toutiao.com/is/Jo6h3oG/

机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识。简单来说,机器学习涉及面很广,数学知识和算法都非常重要,要学会机器学习,必须要掌握数学,那么有哪些数学技能是必须具备的呢?今天就来给大家说说。

在了解机器学习所需的4种数学技能之前,让我们首先描述一下机器学习过程。机器学习过程包括4个主要阶段:

1.问题框架:即你所要解决的问题类型,例如,将电子邮件分类为垃圾邮件或非垃圾邮件的模型,将肿瘤细胞分类为恶性肿瘤或良性肿瘤的模型,通过将电话分为不同类别来改善客户体验的模型,以及预测贷款是否会在贷款期限后冲销,基于不同特征或预测因子预测房价的模型,等等。

2.数据分析:即处理可用于构建模型的数据。它包括特征的数据可视化、缺失数据的处理、分类数据的处理、分类标签的编码、特征的规范化和标准化、特征工程、降维、数据划分到训练集、验证集和测试集等。

3.构建模型:在这里你可以选择要使用的模型,例如线性回归、逻辑回归、KNN、支持向量机、K-均值、蒙特卡罗模拟、时间序列分析等。数据集必须分为训练集、验证集和测试集。超参数调整用于对模型进行微调,以防止过拟合。执行交叉验证以确保模型在验证集上表现良好。对模型参数进行微调后,将模型应用于测试数据集。该模型在测试数据集上的性能与使用该模型对未知数据进行预测时预期的性能大致相等。

4.应用:在这一阶段,最终的机器学习模型投入生产,以开始改善客户体验或提高生产率,或决定银行是否应批准向借款人提供信贷等。在生产环境中对模型进行评估,以评估其性能。这可以通过使用A/B测试等方法将机器学习解决方案的性能与基线或控制解决方案进行比较来实现。从实验模型转换到生产线上的实际性能时遇到的任何错误都必须加以分析。这样就可以用来微调原始模型。

构建机器学习模型所需的大部分数学技能都用于第2、3和4阶段,即数据分析、模型构建和应用。

一.统计与概率

统计与概率用于特征可视化、数据预处理、特征转换、数据插补、降维、特征工程、模型评估等。以下就是需要我们熟悉并掌握的内容:

  • 平均值
  • 中心值
  • 模式
  • 标准差/方差
  • 相关系数与协方差矩阵
  • 概率分布(二项式、泊松分布、正态分布)
  • p值
  • 贝叶斯定理(精度、召回、正预测值、负预测值、混淆矩阵、ROC曲线)
  • A/B测试
  • 蒙特卡罗模拟

二.多元微积分

大多数机器学习模型是建立在一个数据集有几个特点或预测。因此,熟悉多变量微积分对于建立机器学习模型是非常重要的。以下是我们需要熟悉的知识点:

  • 多变量函数
  • 导数和梯度
  • 阶跃函数、Sigmoid函数、Logit函数、ReLU(校正线性单元)函数
  • 成本函数
  • 函数的绘制
  • 函数的最小值和最大值

三.线性代数

线性代数是机器学习中最重要的数学技能。数据集表示为矩阵。线性代数用于数据预处理、数据转换和模型评估。以下是我们需要熟悉的知识点:

  • 向量
  • 矩阵
  • 矩阵的转置
  • 矩阵的逆
  • 矩阵的行列式
  • 点积
  • 特征值
  • 特征向量

四.最优方法

大多数机器学习算法都是通过最小化目标函数来进行预测建模,从而学习必须应用于测试数据的权重,以获得预测的标签。以下是我们需要熟悉的知识点:

  • 成本函数/目标函数
  • 似然函数
  • 误差函数
  • 梯度下降算法及其变体(如随机梯度下降算法)

以上为机器学习入门必须要掌握的基础技能,如果你觉得机器学习内容很多,知识点很乱,无法速成,不妨按照上面列出的知识点来进行学习规划,虽然不是很全,但足以支撑你在机器学习建模的过程中灵活使用。

注:本文属于转载翻译文章

(0)

相关推荐