大数据时代必须了解18个概念:数据仓库、商业智能、数据可视化…

01.什么是大数据?

数据是对客观事实进行记录的一种符号,可以是数字、文字,也可以是图片、音频、视频。大数据是指无法在一定时间范围内用常规软件进行捕捉、管理和数据的数据集合。

大数据具有'5V'特点,即数据量大、数据多样性、价值密度低、增长速度快、数据质量低。

大数据时代强调数据的全部,而不是局部的样本数据。由于大数据的价值密度低,我们要接受这种模糊和不精确性。通过对数据的研究,发现以前不曾发现的联系,而不是像小数据时代,先通过假设,然后再用数据来验证。也就是说,在大数据时代,对相关性的重视程度要强于因果性。

02.什么是结构化和非结构化数据?

结构化数据是适合用二维表格展现的数据。每一行是一条记录,每一列是不同的字段。

以电商网站为例,用户信息就可以用结构化数据来存储。每位用户就是一条记录,而每位用户又有姓名、性别、地址、手机、邮箱等字段,这样就形成了一个二维表格。

非结构化数据不适合用二维表格来展现,比如文档、图片、音频、视频等。非结构化数据的格式多样,难以标准化和理解,因此在存储、检索、利用上都需要更加有效的方法和技术。

03.什么是数据库?

数据库从字面意思来看就是存储数据的地方,但数据的存储不是杂乱无章的,而是按照一定的规则来存储的,具有可共享和便于管理的特点。数据库被视为电子化的文件柜。用户可以对数据库中的数据进行增、删、改、查等操作。

数据库可分为关系型数据库、非关系型数据库、数据仓库等类型。

04.什么是关系型数据库?

关系型数据库是指使用关系模型来组织数据的数据库。关系模型可以简单理解为二维表格模型,以行和列的形式存储数据,因此适合存储结构化数据。关系型数据库就是由多个二维表格及其之间的关系组成的数据库。

常见的关系型数据库有MySQL、SQL Server、PostgreSQL、Oracle等。

以电商网站为例,除了用户信息之外,还要记录产品信息和订单信息。为简化起见,每个订单只包含一种产品。产品包括名称、价格、图片、介绍等字段,订单包括所属用户、相关产品、订购数量、订单价格、下单时间等字段。一个用户拥有一个或多个订单,而一个产品也会属于一个或多个订单,这样就建立了用户、订单和产品之间的关系。

05.什么是非关系型数据库?

相对关系型数据库而言,非关系型数据库抛弃了固定的二维表格结构,存储机制灵活,比如键值对、文档、图形等格式都可以进行存储。

常见的非关系型数据库有Redis、MongoDB、Cassandra等。

性能是非关系型数据库最大的优势。由于关系型数据库中的关系模型会占用掉90%的硬件资源及计算时间,对于有大量不需要关系功能的数据处理,非关系型数据库的性能是非常高的。

另一方面,正是由于缺少数据表之间的关系,非关系型数据库很难在多个表之间做非常复杂的数据查询。

06.什么是时序数据库?

时序数据库是一类特殊的非关系型数据库,全称是时间序列数据库。经研究发现,机器设备、传感器、系统日志等产生的数据有如下明显的特征:

数据是时序的,即按照一定时间顺序生成;

数据极少有更新或删除操作;

数据产生频率快、数据信息量大;

数据往往带有位置信息。

传统的关系型数据库或非关系型数据库对于这类数据,在性能提升上极为有限,只能依靠集群技术,投入更多的计算资源和存储资源来处理,造成企业运营成本急剧上升。而时序数据库可以有效地处理庞大的数据,通过创新的列式存储和先进的压缩算法,使用的计算资源不到传统方案的1/5,存储空间不到通用数据库的1/10。

常见的时序数据库有InfluxDB等。

07.什么是分布式存储?

分布式存储是相对于集中式存储而言的。分布式存储是由标准服务器(硬件)和分布式文件系统(软件)组成的,可扩展至千台硬件节点,支持块存储、对象存储、文件存储等多种类型统一管理。

常见的分布式文件系统有HDFS、Ceph、GFS、GPFS、Swift等。

举个通俗易懂的例子,如果把存储比喻成车厢,数据比喻成货物。集中式存储方案下,如果要想拉更多的货物,只能更换更大的车厢。而分布式存储方案,直接增加车厢就可以了。有了分布式存储技术,存储EB级别(1EB=1024PB=1024*1024TB=1024*1024*1024GB)的海量数据库都不成问题。

08.什么是数据集成?

由于开发部门或开发时间的不同,企业中往往有多个异构的、运行在不同的软硬件平台上的数据库,这些数据库彼此独立、相互封闭,使得数据难以在系统之间交流和共享,从而形成了'信息孤岛'。随着信息化应用的不断深入,企业内部之间、企业与外部的信息交互的需求日益强烈,急切需要对已有的数据进行整合,打通'信息孤岛',这就是数据集成的意义。

数据集成是把不同来源、不同种类、不同格式的数据在物理上或逻辑上进行集中,为企业提供全面的数据共享。数据集成主要解决的问题是各个数据源的异构性,包括数据库的异构性、通信协议的异构性、数据类型的异构性、数据取值的异构性等。

09.什么是数据清洗?

数据清洗是一种清除错误数据、去掉重复数据的技术。数据经过清洗之后,可以还保存到原来的数据库中,也可以和数据集成联系在一起,最终保存到集成后的数据库里。

举几个数据清洗的实例:

1.在用户信息表中,规定有姓名、性别、地址、手机、邮箱五个字段是必填的。而某些用户缺少某些字段的值,因此需要补充这些数据。

2.英文的姓名之间规定要有空格,而某些姓名没有空格,比如'JohnSmith',就需要修正这类错误。

3.有些数据表的金额单位是元,有些数据表的金额单位是万元,数据集成时就需要统一单位。

4.两条用户记录完全重复,需要进行去重处理。

10.什么是ETL?

ETL是Extraction、Transformation、Loading三个单词的首字母缩写,指的是数据抽取、转换、加载的过程。

数据抽取是从不同的数据源中获取我们需要的数据的过程,和数据集成的概念类似,这个过程往往会做一些数据清洗和数据转换。数据转换的任务主要是进行数据格式的转换和一些业务规则的计算。数据加载通常是指在数据清洗和数据转换完成后,写入到目标数据库中去。

11.什么是数据分析?

数据分析是基于商业需要,有目的的对数据进行收集、整理、加工、分析,最终提炼有价值的信息的过程。

数据分析的四个步骤:

需求分析、明确目标;

数据收集、加工处理;

数据挖掘、数据展现;

分析报告、提炼价值。

12.什么是数据埋点?

所谓数据埋点就是从应用的特定流程中收集一些信息,跟踪用户使用的状况,用来提供运营的数据支撑,进一步优化产品。

常见的信息包括独立访客数(UV)、页面浏览量(PV)、页面停留时长、页面跳出率、交互元素的点击事件等。

数据埋点通常有两种方式:

第一种是研发团队在产品中注入代码,并搭建响应的查询平台;

第二种是借助第三方数据埋点工具,如神策数据、百度统计等。

13.什么是数据仓库?

数据仓库 (Data Warehouse) 简称DW,存储大量数据的集成中心。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision-Support)。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。

14.什么是数据集市?

数据仓库是面向整个企业的,而数据集市是面向部门的,因此规模更小,由业务部门设计、开发、管理、维护,可以理解为是数据库的子集。

数据集市就像宜家楼上的家居展厅,正如其名字'集市'一样,是一个面向最终顾客的数据市场。在这里,数据(家具)以一种更加容易被顾客接受的方式组合在一起。顾客的需求是分场景的,比如客厅、书房、卧室、厨房等,因此我们需要创建多个数据集市(展厅)。

15.什么是数据湖?

数据湖至今仍然没有一个特别标准的概念,比较统一的是数据湖存储的是未经加工的原始数据,包含结构化和非结构化的各类数据。数据湖就是一个存储了企业所有原始数据的存储,对于这些原始数据的管理则更加复杂。

以宜家家居为例,数据湖的原始数据就相当于拆散的零部件,顾客可以根据实际需要挑选零部件后自行组装。

16.什么是数据挖掘?

数据挖掘就是从大量的实际应用数据中,提取隐藏在其中的有价值的信息的过程。

一般而言,数据挖掘分为两类:一类是监督学习,另一类是无监督学习。监督学习是对目标需求的概念进行学习,通过建立模型来实现从观察变量到目标需求的有效解释。无监督学习没有明确的标识变量来表达目标需求,主要任务是探索数据之间的内在联系和结构。

数据挖掘融合了多学科领域的知识,常用的算法有分类、聚类分析、关联分析、趋势与演化分析、特征分析、异常分析等。

17.什么是数据可视化?

数据可视化就是借助图形化的手段,清晰有效地传达与沟通信息。

利用人类对形状、颜色的敏感,有效地传递信息,帮助用户从数据中发现关系、规律和趋势。常用的数据可视化图表有柱状图、条形图、饼图、雷达图、折线图、堆积图、散点图等。

18.什么是商业智能?

商业智能(BI,Business Intelligence)是对商业信息的搜集、管理和分析过程,目的是使企业决策者获得洞察力,做出对企业更有利的决策。

从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、联机分析处理、数据挖掘、数据备份和恢复等技术的综合应用。

19.结语

远齐科技基于成熟的软件架构、互联网、物联网、大数据、人工智能等技术构建面向未来的集成开发平台系统。在自有集成开发平台基础上,基于最佳业务实践开发出丰富的软件功能模块、业务系统,为企业提供高效的定制化开发服务。

(0)

相关推荐

  • NoSQL简介

    NoSQL指的是非关系型数据库,是对不同于传统的关系型数据库的数据库管理系统的统称,NoSQL是web2.0时代海量数据催生的产物 特点 不支持SQL语法 NoSQL的世界中没有一种通用的语言,每种n ...

  • 商业智能与风险管理信息化

    商业智能(BI)的概念我们都不陌生,而风险管理信息化(ERMIS)也越来越受到企业的重视,并作为风险管理工作落地的重要手段.BI平台与ERMIS平台的监控预警功能有部分类似,企业有时会把ERMIS系统 ...

  • 数据库:分布式数据库•新变量

    数据库行业:行业螺旋上升,分布式数据库时代到来 数据库发展需要关注增量市场,分布式数据库或成新机遇 数据库的发展与计算载体紧密相关.数据库是计算机行业的基础核心软件,所有应用软件的运行和数据处理都要与 ...

  • 10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)

    编辑导语:作为一名数据小白,在日常学习和工作中经常会接触到数据.随着用户数据与业务数据的不断累加,数据管理与处理愈发重要.本篇文章中,作者将一文说明数据库.数据仓库.数据湖.数据中台的区别与联系. 作 ...

  • 数据库、数据湖、数据仓库、湖仓一体、智能湖仓,分别都是什么鬼?

    最近被大数据相关的小词儿,整的有点懵. 索性我们就来个专题,聊透数据库.数据仓库.数据湖以及风头正劲的"Lake house"--湖仓一体化. 数据仓库是个啥?和数据库有什么不同? ...

  • 大数据时代大数据技术的应用和面临的挑战

    大数据时代,大数据已经成为了我们生活中一个重要的角色,他在每一个领域都发挥着重要的作用,给我们的生活生产都带来了非常多的便利,那么大数据在我们生活中到底有哪些应用呢?又面临这哪些挑战呢? 一.大数据技 ...

  • 纳米光栅——大数据时代光存储的下一个风口?

    文/姚倩.戴晔,上海大学物理系超快光子学实验室 您的存储空间告急- 人类文明发展至今离不开信息的记录.从绘画.雕刻.印刷到如今的数字化信息存储,存储容量呈指数增长.根据软件公司Domo的报告,2018 ...

  • 【学府点拨】概率——随机世界与大数据时代

    概率的意义 一骰子有6个面,一掷之下,会得到偶数之概率为何?骰子看起来没有异样,就假设每个面出现的概率皆相同,即均为1/6.而偶数面有2,4,及6等3个.因此所求之概率为3/6.这就是所谓古典的概率, ...

  • 【学术观点】大数据时代的网络舆情管理

    随着移动互联网.物联网等新技术的迅速发展,人类进入数据时代.大数据带来的信息风暴正深刻改变我们的生活.工作和思维方式,对网络舆情管理也带来深刻影响. 一.大数据时代网络舆情管理面临的新形势 大数据意味 ...

  • 大数据时代的网络舆情研究现状及治理模式!

    随着互联网技术的发展,中国进入大数据时代.以数据量大.类型多.价值密度低.速度快为本质特征的大数据,带动网络舆情形成新变化.新发展.网络舆情的参与主体日益多元,参与途径更为多样,网络舆情监管技术不断提 ...

  • 行业丨大数据时代,园区招商引资的七大关键

    经济发展离不开产业园区的合理规划,如何才能打造一个园区,使之规模化.产业化,从而带动当地产业联动.经济发展,是各个地方都在探讨的问题. 01 把握产业规划 每个地方都有其独特的产业,都需要适合其产业发 ...

  • 大数据时代的突破性TI 体声波(BAW)技术

    时钟信号常用于同步电路,保证着相关电子组件得以同步运作.被形容为电子产品的心脏,可见时钟对电子产品的重要性. 传统的时钟使用石英晶体通过晶体振荡产生电子心跳,实现精确的节奏.但这些晶体的成本昂贵.易磨 ...

  • 大数据时代的市场研究方法

    大数据时代新的市场研究方法使"无干扰"真实还原消费过程成为可能,智能化的信息处理技术使低成本.大样本的定量调研成为现实,这将推动消费行为及消费心理研究达到一个新的高度,帮助快速消费 ...

  • 大数据时代来临,10G到400G!

    中国之声宣传语:大数据时代,每敲击一下键盘,就成为互联网海量信息的一部分 最近开车的时候总是听到广播反复的提到这句话,今天我们聊聊大数据时代来临,10G到400G! 在过去的几年中,数据中心的10G风 ...