Paper之ML:机器学习算法经典、高质量论文分类推荐(建议收藏,持续更新)

请不要随意复制粘贴,请尊重本博主,千辛万苦的总结心血,谢谢您的支持!
建议收藏,一直更新!!!!!

切记:要想学好机器学习,一定要看原汁原味的论文!!!!


1967《Nearest Neighbor Pattern Classification  》

T. M. COVER, MEMBER, IEEE, AND P. E. HART, MEMBER, IEEE
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1053964

1967年,T.M.COVER和P.E.HART提出了kNN算法。邻近算法,或者说K最近邻(kNN,k-NearestNeighbor),其中k就是指k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时,只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。

2005《Histograms of Oriented Gradients for Human Detection》

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1467360

HOG(Histogram of Oriented Gradient)是2005年CVPR会议上,法国国家计算机科学及自动控制研究所的Navneet.Dalal等人提出的一种解决人体目标检测的图像描述子,该方法使用梯度方向直方图(Histogram of Oriented Gradients,简称HOG)特征来表达人体,提取人体的外形信息和运动信息,形成丰富的特征集。

2013《Distributed Representations of Words and Phrases and their Compositionality》

http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

这篇论文是对《Efficient Estimation of Word Representations in Vector Space》的补充,介绍了使用Skip-gram模型和Hierarchical Softmax训练模式的训练方法。并补充了Negative Sampling的训练模式替代Negative Sampling,获得更快的训练效果。  本文还提出了对高频词进行二次抽样的方法,以及衡量短语的方法,学习短语的表示。
       通过分组相似的单词,在向量空间中的distributed representations可以帮助学习算法在NLP任务中获得更好的表现。最早使用word representations可以追溯到1986年(Rumelhart,Hinton和Williams)。这个想法已经被应用于统计语言建模且取得了相当大的成功。后续工作包括应用于自动语音识别和机器翻译,以及大范围的NLP任务。 
        最近,Mikolov等人引入了Skip-gram模型,这是一种从大量非结构化文本数据中学习高质量向量表示的有效方法。与过去大部分用于学习word vectors的神经网络架构不同,Skip-gram模型的训练(参见图1)不涉及密集矩阵的乘法。这使得训练非常高效:一个优化过的单机实现可以在一天内训练超过1000亿字。 
       使用神经网络计算的word representation非常有趣,因为已训练的向量明确地编码了许多语言规律和模式。有点令人惊讶的是,许多这些模式可以表示为线性翻译。例如,向量计算vec("Madrid")-vec("Spain")+vec("France")的结果比任何其他word vector更接近于vec("Paris")。

2014《Neural Word Embedding as Implicit Matrix Factorization 》

http://papers.nips.cc/paper/5477-neural-word-embedding-as-implicit-matrix-factorization.pdf

Word2vec和矩阵分解的等价性

(0)

相关推荐

  • K均值算法

    K均值算法 K均值算法是一种聚类算法,把样本分配到离它最近的类中心所属的类,类中心由属于这个类的所有样本确定. k均值算法是一种无监督的聚类算法.算法将每个样本分配到离它最近的那个类中心所代表的类,而 ...

  • KNN:最容易理解的分类算法

    KNN是一种分类算法,其全称为k-nearest neighbors, 所以也叫作K近邻算法.该算法是一种监督学习的算法,具体可以分为以下几个步骤 1. 第一步,载入数据,因为是监督学习算法,所以要求 ...

  • 一句话总结K均值算法

    一句话总结K均值算法 核心:把样本分配到离它最近的类中心所属的类,类中心由属于这个类的所有样本确定. k均值算法是一种无监督的聚类算法.算法将每个样本分配到离它最近的那个类中心所代表的类,而类中心的确 ...

  • 神器!3天复现 Alexnet 和 word2vec!

    最近后台有很多准研究生粉丝给我留言,重复频次最高的2个主题是: ① 如何高效地筛选.阅读论文? ② 如何高效复现论文? AI领域学术会议动辄上千篇文章,无论是准研究生还是现研究生,都会碰到这个问题. ...

  • Paper之DL:深度学习高质量论文分类推荐(建议收藏,持续更新)

    论文集合推荐: CNN:关于深度学习之CNN经典论文原文(1950~2018)简介.下载地址大全(非常有价值)之持续更新(吐血整理) 一.CV方向 更新-- 二.NLP方向 1.LSTM相关论文 20 ...

  • Paper之Algorithms:国内外Algorithms高质量论文、CUMCM分类推荐(建议收藏,持续更新)

    Paper之Algorithms:国内外Algorithms高质量论文.CUMCM分类推荐(建议收藏,持续更新) 国内Algorithms论文集合 更新-- 国外Algorithms论文集合 LDA算 ...

  • 护理理论临时找?38个国际经典护理模型和理论推荐#建议收藏#

    Focus 护理科研知识星球-护士的私密圈 适合科研护士.护理研究生.科研小白的专属社群 知识分享+资料共享+解疑答惑 导读 随着时间的流逝,护理专业取得了令人瞩目的发展,随之而来的是各种护理理论的发 ...

  • 高质量论文生成的要素

    为了让论文之路上奋斗的小伙伴们少走弯路.结合小编个人的经验,总结了一篇高质量的学术论文所应具有的十个要素: (1)原创性: (2)创新性: (3)题目合适: (4)好的摘要: (5)论文组织论证严密( ...

  • 分享4个免费高清观影网站,都是高质量4K资源,请收藏好!

    分享4个免费高清观影网站,都是高质量4K资源,请收藏好!

  • 如何快速写出一篇高质量论文:引言与文献综述

    本文来源:投必得学术(ID:topeditUS) 作者:小H 本文主要分享关于论文引言.文献综述两部分的写作方法和技巧.希望对学术萌新和发文困难户有所启发. 04 如何写论文引言(Introducti ...

  • 挑战:一天写15分钟真的能写完一篇高质量论文吗?

    常写论文的人大概都思考过如何有效管理自己写作时间的问题.写论文和做研究如果只是暂时的事也就罢了,但如果是长期的工作和终身的事业,那么对于学术写作方法管理的系统性思考就显得十分必要. 大部分学者大概都有 ...

  • 26本高评分高质量种田文推荐(2018.9.24推荐)

    26.元配 作者:石头与水 简介: 陈萱临终前回忆自己的一生,她少时丧父,母亲改嫁,却也有叔叔养大成人.她十八岁嫁人,婆家不算宽厚,却也没有虐待她.在许多年后被无数人形容为兵荒马乱的乱世,她过的不算好 ...

  • 高质量种田文推荐!剧情好文笔赞!

    高质量种田文推荐!剧情好文笔赞!