深入解析机器学习算法有哪些？ / 四六文摘

机器人学是一个多领域的交叉学科，包含了许多学科：包括概率论、统计学、逼近论、凸分析、算法复杂性理论等。专攻计算机如何模拟或实现人的学习行为，以获得新的知识或技能，重组已有的知识结构，使其持续地提高其表现。计算机智能是人工智能的核心，是实现计算机智能化的基本途径。若以人为例，机器学习就是人类学习和发展的能力。

通用机器学习算法。

1.线性回归

线性回归可能是统计学和机器学习领域中最为人熟知、最容易理解的算法之一。

预报模型的建立主要是为了尽量减少模型误差，或者在牺牲可解释性的情况下最精确地预报。为了达到这一目的，我们将借鉴、重用其他许多领域的算法(包括统计)。

该模型用方程形式表示，为输入变量寻找特定权重(即系数B)，然后描述了输入变量(x)与输出变量(y)之间关系的最佳拟合曲线。

2.Logistic回归

逻辑Ic回归是机器学习学到的另一项统计领域的技术。在二分类问题中，它是首选的。

和线性回归一样，LogisTIc回归也是为了找出每个输入变量的权系值。但是，不同的是，LogisTIc回归的输出预测结果是由一种非线性函数“logisTIc函数”变换而成。

这个logistic函数的形状就像一个“S”，它可以将任何值转换为0-1的区间。这个方法非常有用，因为我们可以对logistic函数的输出应用一条规则，以获得0-1范围内的捕获值(例如，将阈值设为0.5，如果函数的阈值小于0.5，那么输出值就是1)，并预测类别的值。

3.线性判别分析

逻辑回归是传统的分类算法，其使用场景局限于解决二类问题。当你有两个以上的类别时，线性鉴别分析算法(LDA)是线性分类的首选方法。

4.分类与回归树

决策树是机器学习中预测建模的重要算法。

可将决策树表示为二叉树。这类二叉树在算法设计和数据结构上都是一样的，没有什么特别之处。每一个节点代表一个输入变量(x)和一个基于它的分叉点(假设变量为数值型)。

5.朴素贝叶斯

Bayes是一个简单而又强大的预测建模算法。

此模型包括两类概率，可以直接从训练数据中计算出：1)属于每一类的概率；2)给定每个x值时，数据从属于每一类的条件概率。只要计算出这两种概率，就可以利用贝叶斯定理，用概率模型预测新的数据。如果您的数据为实值，则通常假定它符合高斯分布(钟形曲线)，以便您能够轻松地估计这些概率。

6.K最临近算法

最小邻域K(KNN)算法简单有效。模型表示KNN是完整的训练数据集。

通过搜索数据点最接近的K个实例(邻近点)，并归纳出这些K个实例的输出变量，可以得到新数据点的预测结果。对回归问题而言，预测结果可以是输出变量的均值；对分类问题而言，它可以是众数(或最常见的)类别的值。

重点在于如何判断数据实例间的相似度。假如你的数据特征尺寸相同(比如，所有数据都以英寸为单位)，那么最简单的测量方法就是使用欧几里德距离，你可以直接根据输入变量的不同来计算它。

7.学习向量量化

KNN算法的一个缺点是需要处理全部的训练数据。并且，学习向量量化算法(LVQ)允许选择所需的训练实例数，并且可以准确的学习这些实例。

8.支持向量机

SVM(SVM)可能是目前被讨论得最为广泛和流行的机器学习算法之一。

超面是一条“线”，它在输入变量空间中被分割。该方法可以利用向量机会选择出一个超平面，将输入变量空间中的点分成类(类0或类1)。你可以把他想像成二维空间中的一条直线，假定所有的输入点都能被这条直线完全分割。SVM学习算法的目标是通过超平面求取最优分类分割系数。

9.袋装法和随机森林

随机森林算法是一种综合机器学习算法，是目前最流行、功能最强大的算法之一。

自我分析法是一种很有效的统计方法，可以从数据样本中估算一定数量(例如平均值)。您需要从数据中提取大量样本，计算均值，然后再将每次抽样所计算的均值进行平均，以获得所有数据的真实均值的更好估计。

随机值用于次优分割。

10.Boosting和AdaBoost

boosting是一种集成技术，它尝试使用大量的弱分类器来创建强分类器。为了实现Boosting方法，您首先需要使用训练数据构造一个模型，然后创建第二个(它试图修正第一个模型的错误)。在模型最终能够完全预测训练集或者加入的模型已经达到最大数量之前，我们不会再加入新模型。

深入解析机器学习算法有哪些？