九道门丨数据挖掘:技术与工具(上)
什么是数据挖掘?
数据挖掘是分析大量数据以发现有助于公司解决问题、降低风险和抓住新机遇的商业智能的过程。数据挖掘,也称为数据库中的知识发现,在计算机科学中,在大量数据中发现有趣和有用的模式和关系的过程。数据分析优质社群,等你加入哦~
该领域结合了统计学、人工智能和数据库管理的工具来分析大型数字集合(称为数据集)。数据挖掘广泛应用于商业、科学研究和政府安全领域。它是在大型数据集中查找异常、模式和相关性以预测结果的过程。这是公司用来将原始数据转化为有用信息的过程。
数据挖掘过程的步骤
- 组织收集数据并将其加载到数据仓库中。
- 它们在内部服务器或云上存储和管理数据。
- 业务分析人员、管理团队和信息技术专业人员访问数据并确定他们想要如何组织数据。
- 应用软件根据用户的结果对数据进行排序。
- 最终用户以易于共享的格式(如图形或表格)显示数据。
数据挖掘从业者通常通过遵循结构化的、可重复的过程来实现及时、可靠的结果,该过程包括以下六个步骤:
1、业务理解
全面了解项目参数,包括当前业务状况、项目的主要业务目标以及成功标准。
2、数据理解
确定解决问题所需的数据,并从所有可用来源收集数据。
3、数据准备
以适当的格式准备数据以回答业务问题,解决任何数据质量问题,如数据缺失或重复。
4、建模
使用算法来识别数据中的模式。
5、评估
确定给定模型提供的结果以及如何帮助实现业务目标。为了得到最好的结果,通常会有一个迭代阶段来寻找最好的算法。
6、部署
将项目成果提供给决策者。
数据挖掘技术
组织可以使用许多数据挖掘技术将原始数据转化为可操作的见解。些技术包括从先进的人工智能到数据准备的基础,这对最大化数据投资的价值至关重要:
1. 模式跟踪
模式跟踪是数据挖掘的一项基本技术。它是关于识别和监测数据中的趋势或模式,以便对业务结果做出明智的推论。例如,当确定某一产品在特定人口群体中比其他产品销售得更好,则组织可以利用这些知识创建类似的产品或服务,或者简单地为该人群更好地储存原始产品。
2. 数据清理和准备
数据清理和准备是数据挖掘过程中的重要组成部分。原始数据必须进行清理和格式化,以便对各种分析方法有用。数据清理和准备包括数据建模、转换、迁移、集成和聚合等各种元素。这是了解数据的基本特征和属性以确定其最佳用途的必要步骤。
3. 分类
基于分类的数据挖掘技术涉及分析与不同类型的数据相关的各种属性。一旦组织确定了这些数据类型的主要特征,它们就可以对相应的数据进行分类。这对于识别至关重要,例如,组织可能希望保护或从记录中删除的个人身份信息。
4. 异常值检测
异常值检测可识别数据集中的异常情况。一旦组织在其数据中发现异常值,就更容易理解这些异常发生的原因,并为将来可能出现的异常值做好准备,以更好地实现业务目标。例如,如果事务性信用卡系统的使用在一天中的某个时间出现高峰,组织可以通过发现高峰的原因来利用这一信息来优化一天中其余时间的销售。
5. 关联
关联是一种与统计相关的数据挖掘技术。它表示某些数据与其他数据或数据驱动的事件相关。它类似于机器学习中共生的概念,其中一个基于数据的事件的概率由另一个事件的存在来表示。这意味着两个数据事件之间是有联系的:例如,购买汉堡包的同时经常会购买薯条。
6. 聚类
聚类是一种依赖于可视化方法来理解数据的分析技术。聚类机制使用图表显示数据分布与不同类型的指标的分布位置。图形化方法是使用聚类分析的理想方法。特别是通过图形和集群,用户可以直观地看到数据是如何分布的,以确定与他们的业务目标相关的趋势。
7. 回归
回归技术可用于识别数据集中变量之间关系的性质。在某些情况下,这些关系可能是因果关系,或者只是相互关联。回归是一种简单的白盒技术,可以清楚地揭示变量之间的关系。回归技术用于预测和数据建模的某些方面。
8. 顺序模式
这种数据挖掘技术侧重于查找一系列按顺序发生的事件。它对于交易数据挖掘特别有用。例如,这种技术可以揭示客户在首次购买一双鞋后最有可能购买哪些服装。了解顺序模式可以帮助组织向客户推荐其他商品以促进销售。
9. 预测
预测是数据挖掘的一个非常强大的方面,是分析学的四个分支之一。预测分析使用当前或历史数据中的模式将其扩展到未来。通过这种方式,它使组织能够洞察未来数据中将要发生的趋势。使用预测分析有几种不同的方法,一些较先进的涉及机器学习和人工智能方面。
10. 决策树
决策树是一种特定类型的预测模型,使组织能够有效地提取数据。从技术上讲,决策树是机器学习的一部分,但由于其极其简单的性质,它更被称为“白盒”机器学习技术。决策树允许用户清楚地了解数据输入如何影响结果。当多个决策树模型组合在一起时,它们创建称为随机森林的预测分析模型。
11. 神经网络
神经网络是一种特定类型的机器学习模型,通常用于人工智能和深度学习。之所以称为神经网络,是因为它们有不同的层,类似于人类大脑神经元的功能,神经网络是当今使用的最准确的机器学习模型之一。
12. 可视化
数据可视化是数据挖掘的另一个重要部分。它们为用户提供基于人们能看到的感官感知的数据视图。今天的数据可视化是动态的,对实时数据流很有用,其特点是以不同的颜色显示数据中的不同趋势和模式。
仪表板是使用数据可视化来揭示数据操作信息的强大方式。组织可以根据不同的指标建立仪表板,并使用可视化来突出显示数据中的模式,而不是简单地使用统计模型中的数值结果。
13. 统计技术
统计技术是数据挖掘过程中大多数分析的核心。不同的分析模型基于统计概念,这些概念产生适用于特定业务目标的数值。例如,神经网络使用基于不同权重和度量的复杂统计数据来确定图像识别系统中的图像是狗还是猫。
14. 长期内存处理
长期内存处理是指长期分析数据的能力。存储在数据仓库中的历史数据对此很有用。当一个组织能够长时间分析时,它能够识别出那些本来过于微妙而无法检测的模式。
15. 数据仓储
数据仓储是数据挖掘过程的重要组成部分。传统上,数据存储是将结构化数据存储在相关数据库管理系统中,以便分析其商业智能、报告和基本仪表板。今天,有基于云的数据仓库和半结构化和非结构化的数据仓库,如 Hadoop。
16. 机器学习和人工智能
机器学习和人工智能代表了数据挖掘领域的一些最新发展。深度学习等高级机器学习可以在处理大规模数据时提供高度准确的预测。因此,它们可用于人工智能实现中的数据处理,如计算机视觉、语音识别或使用自然语言处理进行复杂的文本分析。这些数据挖掘技术有助于确定半结构化和非结构化数据的价值。