关于数据挖掘

数据挖掘技术(Data Mining)是对数据库中的数据做进一步的处理,提取出隐含于众多数据之中的关系及规律,即“知识”,从而为有效的决策或推理提供依据和指导,是当前知识工程领域的一个热点研究方向。
然而数据挖掘技术仍然是一门处于成长期的学科,虽然取得了一定的成就,但同时也还存在着相当的不足。从数据挖掘采用的技术来看,数据挖掘是一门多学科交叉的研究,其中包括有粗糙集理论、机器学习、神经网络、统计理论、模糊数学、信息论、非经典逻辑等。
其中,数据挖掘算法的一个重要来源是机器学习,如C4.5分类决策树算法、 K-means聚类算法、EM最大期望值法、Ada Boost迭代算法、SVM、KNN、Naive Bayes、分类与回归树Cart等等。
然而,机器学习算法应用于数据挖掘领域存在的主要困难是,机器学习方法对训练数据集的一些隐含的假设:许多机器学习算法假设其数据集较小,数据集有良好的组织结构,学习的数据集是无错误的。而由于真实世界中的数据往往是被污染的,因此,如何对属性值不完整、属性值含有非系统错误的不完美数据集进行数据挖掘,成为目前研究的一个焦点问题。
从数据挖掘的应用来看,数据挖掘技术主要是为决策进行服务的。从目前的现状来看,数据挖掘技术的广泛应用还存在着一定的困难。这其中除了算法本身造成的原因以外,数据挖掘过程产生无关知识过多也是一个重要的影响因素。“大数据”与“小样本”并存的现象,“幸存者偏差”的误区,诸如此类的情况,在实际应用场景中屡见不鲜。
最后,由于数据挖掘过程不可能产生所有的决策信息,因此,如何对数据挖掘产生的知识进行合理的推理、同时利用推理机制来更加促进数据挖掘过程的进行,这也是当前应用中的一项突出问题。于是,针对聚类和分类算法中产生规则的客观性和主观性评价也正在成为一个重要的研究方向。
求荣不在公门下
静心长觅远林间
个人微信:xueshuai80731970
电邮联系:53741918@qq.com
如果您觉得好,请点亮下方“在看
(0)

相关推荐