概述:各学科和各种任务的最新机器学习算法

了解NLP,计算机视觉,语音识别和推荐系统的最佳算法

CV Computer Vision, NLP Natural Language Processing, RS Recommender System, SR Speech Recognition

机器学习算法正在兴起。每年都会出现新技术,这些技术已经超过了当前的领先算法。其中一些只是很小的进步或现有算法的组合,而另一些则是新创建的并导致了惊人的进步。对于大多数技术而言,已经有不错的文章解释其背后的理论,其中一些还提供了带有代码和教程的实现。还没有人提供当前领先算法的概述,因此提出了根据所获得的结果(使用性能得分)为每个任务提供最佳算法的想法。当然,还有更多的任务,并非所有任务都可以呈现。我试图选择最受欢迎的领域和任务,并希望这有助于更好地理解。本文重点介绍的方法是计算机视觉,自然语言处理,语音识别。

本文介绍了所有领域,任务和一些算法。如果您仅对子部分感兴趣,请跳至要深入的部分。

计算机视觉

计算机视觉是机器学习中研究最多,最受欢迎的领域之一。它用于解决许多日常问题,并连续涉及多种应用,其中最流行的是当前的自动驾驶汽车。我们将研究的任务是语义分割,图像分类和对象检测。

语义分割

语义分割可以看作是在像素级别上理解图像的结构和组件。语义分割的方法试图对图像中的结构和对象做出预测。为了更好地理解,可以在下面看到街道场景的语义分割:

> Semantic Segmentation with SegNet https://mi.eng.cam.ac.uk/projects/segnet/

Tao等人于2020年提出了当前领先的算法HRNet-OCR。来自Nvidia。它实现了平均交集(Mean IOU)为85.1%。HRNet-OCR缩放图像并为每个缩放比例使用密集的蒙版。然后,'通过在掩模之间执行像素级乘法与预测相结合,然后在不同比例级之间进行像素级求和,以得到最终结果' [1]。

查看该技术的Github:https://github.com/HRNet/HRNet-Semantic-Segmentation

其他顶级技术(方法-数据集):

· 高效Net-L2 + NAS-FPN — PASCAL VOC

· ResNeSt-269 — PASCAL上下文

· MVF —ScanNer

影像分类

除语义分割外,图像分类不关注图像上的区域,而是整个图像。该学科试图通过分配标签来对每个图像进行分类。

> source: image by author.

首先,Facebook AI研究团队于2020年4月20日将FixEfficientNet与相应的论文一起展示[2] [3]。目前,它是最先进的,在ImageNet数据集上具有480M参数,top-1精度为88.5%和top-5精度为98.7%的最佳结果。FixRes是Fix Resolution的简写形式,它尝试为训练时间或测试时间的作物保持固定大小。EfficientNet是CNN尺寸的复合缩放,可提高准确性和效率。

有关FixEfficientNet的更多信息,请阅读此内容。

其他顶级技术(方法-数据集):

· BiT-L — CIFAR-10

· Wide-ResNet-101 — STL-10

· 分支/合并CNN +均质过滤器胶囊— MNIST

物体检测

对象检测是识别图像中某一类对象的实例的任务。

当前领先的物体检测技术是Google Brain小组(Tan等人)于2020年首次提出的Efficient-Det D7x [4]。它实现了74,3的AP50(有关AP50的更多信息:平均精度,固定IoU阈值为50)和盒AP为55,1。Efficient-Det是EfficientNets与双向特征金字塔网络(BiFPN)的组合。

正如上面简短解释的那样,EfficientNet是CNN尺寸的复合缩放,可同时提高准确性和效率。有关EfficientNet的更多信息,请单击此处。

在计算机视觉中,提高准确性的一种典型方法是创建具有不同分辨率的同一图像的多个副本。由于最小的图像作为顶层,最大的图像作为底层,这导致了所谓的金字塔。特征金字塔网络代表了这样的金字塔。双向意味着不仅存在自上而下的方法,而且同时存在自下而上的方法。每个双向路径都用作功能网络层,这导致了BiFPN。它有助于提高准确性和速度。有关BiFPN的更多信息,请单击此处。

其他顶级技术(方法-数据集):

· 罗迪欧-PASCAL VOC

· 修补程序优化— KITTI Cars Easy

· IterDet —人群

自然语言处理

自然语言处理的常见定义如下:

NLP是AI的一个子领域,它使机器能够阅读,理解并从人类语言中获取含义。

NLP任务的范围很广,正如定义所揭示的,它们都试图从我们的语言中推断出某些含义,并根据我们的语言及其组成部分进行计算。基于NLP的算法可以在各种应用和行业中找到。仅列举一些您每天可能会遇到的应用程序,例如翻译器,社交媒体监控,聊天机器人,垃圾邮件过滤器,Microsoft word或Messenger和虚拟助手中的语法检查。

情绪分析

情感分析是文本挖掘的一个领域,用于解释和分类文本数据中的情感。当前最先进的算法之一是BERT,该算法在2019年的SST-5细分类数据集上的准确度达到55.5。原始论文由Google AI团队发布[5]。

BERT代表变压器Tansformer的双向编码器表示形式,并且对Tansformer技术进行了双向训练。Tansformer技术是一种用于语言建模的注意力模型,以前仅在一个方向上应用。从左到右或从右到左解析文本。

其他顶级技术(方法-数据集):

· T5–3B — SST-2二进制分类

· NB加权BON + DV余弦— IMDb

语言建模

语言建模的任务是根据现有文本/先前的单词预测文本中的下一个单词或字母。GPT-2模型给出了两个句子,描述了一群生活在安第斯山脉的独角兽,并创造了一个惊人的故事。你可以在这里阅读它。

在语言建模中,可以在威震天LM中找到性能最好的算法之一。该模型和论文由Nvidia团队于2019年首次提出。在8.3万亿参数上训练了类似于GPT-2的模型。它能够将当前的最新分数15.8降低到测试困惑度仅为10.8。使用的数据集是WikiText103 [6]。

该模型利用了Tansformer网络。在他们的工作中,Tansformer层由一个自我注意模块和一个两层,多层感知器(MLP)组成。在每个块中,使用模型并行性。这有助于减少通信并保持GPU的计算约束。GPU的计算被复制以提高模型的速度。

其他顶级技术(方法-数据集):

· GPT-3 —宾夕法尼亚州树库

· GPT-2 — WikiText2,Text8,enwik8

机器翻译

机器翻译用于Google Translate或www.deepl.com之类的应用程序中。它用于使用算法翻译另一种语言的文本。

该领域最有前途的算法之一是Transformer Big + BT。Google Brain团队在2018年的论文中对此进行了介绍。通常,变压器是处理序列和机器翻译的最新技术。变压器不使用循环连接,而是同时解析序列[7]。

Input is represented in green is given to the model (blue) and transformed to the output (purple)

如您在上面的gif中看到的,输入和输出有所不同。这是由于两种不同的语言,例如,输入是英语,而输出是德语。为了提高速度,并行化是模型的关键方面。通过使用CNN和注意力模型来解决此问题。自我注意有助于提高速度和对某些单词的关注,而CNN用于并行化[8]。有关变压器的更多信息,请阅读这篇出色的文章。作者将反向翻译(BT)应用于他们的训练。在这种方法中,训练数据集被翻译成目标语言,算法将其翻译回原始语言。然后可以完美地观察性能[7]。

其他顶级技术(方法-数据集):

· MAT + Knee — IWSLT2014德语-英语

· MADL — WMT2016英语-德语

· 注意编码器+ BPE编码器— WMT2016德语-英语

文字分类

文本分类是为句子,文本或单词分配特定类别的任务。当前在三种不同数据集(DBpedia,AG News和IMDb)上的领先算法是XLNet。

谷歌AI团队于2019年首次提出了论文和技术XLNet。它在20个任务中改进了领先的算法BERT。XLNet率先采用的方法称为置换语言建模。它利用单词的排列。假设您按照以下顺序[w1,w2,w3]得到3个单词。然后检索所有排列,此处3 * 2 * 1 = 6个排列。显然,长句子会导致许多排列。位于预测字之前的所有字(例如w2)都用于预测[9]:

w3 w1 w2w1 w2 w3w1 w3 w2 …

在第1行中,w3和w1用于w2的预测。在第2行中,只有w1用于预测,依此类推。为了更好地了解该技术,您可以在此处阅读更多信息。

其他顶级技术(方法-数据集):

· USE_T + CNN — TREC-6

· SGC — 20新闻

问题回答

问答是训练算法以回答问题(通常基于阅读理解)的任务。由于在给定的文本数据库上进行学习并存储了可以在以后某个时间点回答问题的知识,因此该任务是'转移学习'的一部分。

Google AI团队使用T5-11B在四个不同的数据集上取得了最新的基准:GLUE,SuperGLUE,SQuAD和CNN / Daily Mail。T5代表文本到文本转换变压器中的五个T,而11B代表用于训练算法的110亿个数据集。与BERT和其他出色的算法相比,T5-11B不会将标签输出到输入句子。取而代之的是,正如名称所示,输出也是文本字符串[10]。

> source: https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

本文的作者已经严格评估和完善了数十种现有的NLP任务,以将最佳思想带入他们的模型中。这些包括作者描述的关于模型架构,预训练目标,未标记的数据集,训练策略和规模的实验[10]:

模型体系结构,我们发现编码器-解码器模型通常优于'仅解码器'语言模型;

训练前目标,我们确认填空式去噪目标(训练模型以恢复输入中丢失的单词)效果最好,而最重要的因素是计算成本;

未标记的数据集,我们证明对域内数据进行训练可能是有益的,但对较小的数据集进行预训练会导致不利的过度拟合;

训练策略,在该策略中,我们发现多任务学习可以通过'先培训后再微调'的方法接近竞争能力,但需要仔细选择对每项任务进行模型训练的频率;

和比例,我们比较按比例放大模型的大小,训练时间和集成模型的数量,以确定如何充分利用固定计算能力[11]

完整的T5-11B模型是现有NLP模型(例如BERT)的三十倍以上。

其他顶级技术(方法-数据集):

· T5-11B — SQuAD1.1开发

· 阿尔伯特上的SA-Net — SQuAD2.0

· TANDA-RoBERTa — WikiQA

推荐系统

您很可能已经看到并使用了各种推荐系统。您最喜欢的在线商店或平台使用它来建议您可能感兴趣的类似产品。

贝叶斯时间SVD ++是该领域当前领先的算法之一。它由Google团队于2019年提出,并在MovieLens100K数据集上达到了SOTA基准。Google团队尝试了多种多样的方法以及方法的组合,直到找到贝叶斯矩阵分解和timeSVD ++的领先组合。贝叶斯矩阵分解模型是使用Gibbs采样进行训练的。有关模型和所有尝试过的方法的更多信息,请参见此处[12]。

其他顶级技术(方法-数据集):

· H + Vamp门控— MovieLens 20M

· 轻松—百万首歌曲数据集

· 贝叶斯timeSVD ++翻转,带有有序概率回归— MovieLens 1M

语音识别

以及推荐系统,语音识别也参与了我们的日常生活。越来越多的应用程序以虚拟助手(例如Siri,Cortana,Bixby或Alexa)的形式利用语音识别。

该领域的领先算法之一是Google团队于2019年首次引入基于ContextNet + SpecAugment的Libri-Light噪声学习训练,该论文[13]。

顾名思义,此方法将ContextNet与嘈杂的学生学习结合在一起。ContextNet是CNN-RNN-换能器。该模型包括一个用于输入音频的音频编码器,一个用于生成输入标签的标签编码器以及一个用于解码的联合网络。对于标签编码器,使用LSTM,而音频编码器基于CNN。嘈杂的学生训练是一种半监督的学习,它使用未标记的数据来提高准确性[13]。

'在嘈杂的学生训练中,一系列模型是连续训练的,因此对于每个模型,该系列中的先前模型在数据集的未标记部分上充当教师模型。嘈杂的学生训练的显着特征是利用增强,其中老师通过阅读纯净的输入来产生高质量的标签,而学生则被迫使用大量增强的输入功能来复制这些标签。[13]

Libri Light指的是未标记的音频数据集,在该数据集上训练了模型并且该音频数据集来自有声读物。

其他顶级技术(方法-数据集):

· ResNet + BiLSTM的声学模型—总机+ Hub500

· LiGRU +辍学+ BatchNorm + Monophone Reg — TIMIT

· 大型10h-LV-60k — Libri-Light测试清洗

结论

过去的十年在多个学科和任务上取得了突破。已经发现和开发了新技术,算法和应用程序,我们仍处于起步阶段。这主要是通过两个开发过程来实现的:1)不断增长的数据库使向算法提供足够的数据成为可能; 2)处理器,RAM和图形卡的技术开发使训练需要更多计算的更复杂算法成为可能。功率。此外,最先进的算法的半衰期也随着对数据科学投资的增加以及越来越多的人对数据科学和机器学习领域的兴趣而缩短。连续地,这篇文章可能已经过时了一年。但就目前而言,这些领先技术可帮助创建越来越好的算法。

如果您知道应添加的其他方法或学科,则可以发表评论或与我联系。感谢您的反馈,希望您喜欢阅读本文!

参考文献:

[1] Tao,A.,Sapra,K。和Catanzaro,B。(2020)。语义细分的分层多尺度注意。ArXiv:2005.10821 [Cs]。http://arxiv.org/abs/2005.10821

[2] Touvron,H.,Vedaldi,A.,Douze,M.&Jégou,H.(2020b)。修复火车测试分辨率差异:FixEfficientNet。ArXiv:2003.08237 [Cs]。http://arxiv.org/abs/2003.08237

[3] Touvron,H.,Vedaldi,A.,Douze,M.&Jégou,H.(2020a)。修复火车测试分辨率差异。ArXiv:1906.06423 [Cs]。http://arxiv.org/abs/1906.06423

[4] Tan,M.,Pang,R.,&Le,Q. V.(2020)。EfficientDet:可扩展且高效的对象检测。ArXiv:1911.09070 [Cs,Eess]。http://arxiv.org/abs/1911.09070

[5] Devlin,J.,Chang,M.-W.,Lee,K.,&Toutanova,K.(2019)。BERT:用于语言理解的深度双向变压器的预训练。ArXiv:1810.04805 [Cs]。http://arxiv.org/abs/1810.04805

[6] Shoeybi,M.,Patwary,M.,Puri,R.,LeGresley,P.,Casper,J.,&Catanzaro,B.(2020)。威震天LM:使用模型并行性训练数十亿个参数语言模型。ArXiv:1909.08053 [Cs]。http://arxiv.org/abs/1909.08053

[7] Edunov,S.,Ott,M.,Auli,M.和Grangier,D.(2018)。大规模理解反向翻译。ArXiv:1808.09381 [Cs]。http://arxiv.org/abs/1808.09381

[8] Vaswani,A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,A.,Kaiser,L。,和Polosukhin,I。(2017年)。注意就是您所需要的。ArXiv:1706.03762 [Cs]。http://arxiv.org/abs/1706.03762

[9] Touvron,H.,Vedaldi,A.,Douze,M.&Jégou,H.(2020b)。修复火车测试分辨率差异:FixEfficientNet。ArXiv:2003.08237 [Cs]。http://arxiv.org/abs/2003.08237

[10] Raffel,C.,Shazeer,N.,Roberts,A.,Lee,K.,Narang,S.,Matena,M.,Yang,Li,W.,&Liu,PJ(2020)。探索使用统一文本到文本转换器的迁移学习的局限性。ArXiv:1910.10683 [Cs,Stat]。http://arxiv.org/abs/1910.10683

[11] https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

[12] Rendle,S.,Zhang,L.和Koren,Y.(2019)。关于评估基准的难度:推荐系统研究。ArXiv:1905.01395 [Cs]。http://arxiv.org/abs/1905.01395

[13] Park,D。S.,Zhang Y.,Jia Y.,Han W.,Chiu C.-C.,Li B.,Wu Y.和Le Q. V.(2020)。改进了用于自动语音识别的嘈杂学生培训。ArXiv:2005.09629 [Cs,Eess]。http://arxiv.org/abs/2005.09629

(本文由闻数起舞翻译自Hucker Marius的文章《Overview: State-of-the-Art Machine Learning Algorithms per Discipline & per Task》,转载请注明出处,原文链接:https://towardsdatascience.com/overview-state-of-the-art-machine-learning-algorithms-per-discipline-per-task-c1a16a66b8bb)

(0)

相关推荐