面向数据架构的云演变

现代数据架构的概念在过去的10多年里发生了巨大的变化,具体可以参见公众号“补天遗石”的《从数据仓库到数据湖——浅谈数据架构演进》一文。

把时钟调回来,回想一下那些有许多限制的遗留数据架构的日子。 存储是昂贵的,并且有相关的硬件成本。 计算经常涉及服务器和更多的硬件投资。 网络是昂贵的,部署只是在场内,专有软件和硬件都锁定在用户所在的所有企业。

这是一个(对许多组织来说仍然是)的世界,在这个世界上,架构只允许对高度结构化数据进行事后分析。 随着移动和传感器等新数据类型的出现,以及机器学习和数据科学等新的分析出现,这些遗留架构中的弱点就会暴露无遗。 再加上云计算的出现,我们将迎来一场完美的风暴。

许多相互关联的因素打乱了遗留的数据体系结构时代。 储存变得更加便宜,像 Apache Hadoop 这样的软件成为了中心舞台。 计算也走软件路线,我们看到了边缘计算的开始。 网络变得无处不在,为地球提供了3G/4G/LTE连接,部署开始成为混合动力,企业开始使用开源软件。 随着客户需求的改变,这导致了一股创新热潮,影响了供应商现代化数据架构的方向。

云的出现创造了再次进化的需要,以便利用其独特的特性,如脱耦存储和计算。 因此,这导致了相互连接的数据架构,Hadoop 生态系统为 IaaS 和 PaaS 模型和创新进化,用于连接数据中心和公共云中的部署。

由于数据具有"质量",并且是云迅速崛起的原因,数据架构必须再次演变,以满足当今企业的需求,并利用云计算的独特优势。 今天的数据架构需要更多的东西来实现数字转换、实时分析和人工智能的梦想。 这为事先分析和驱动客户360度视图等用例铺平了道路。 组织需要一个统一的混合体系结构,用于室内、多云和边缘环境。 现在是重新设想数据结构的时候了,混合是一个关键的要求。

云模型非常适合于敏捷性开发和高效部署,并能很好地应用于临时工作负载。 该模型提供了一种更可预测的成本结构,适用于长期运行的工作负载。 将"云"带到数据中,无论数据是位于本地还是云端。

图1 数据架构的演变

首先,理解驱动开放混合架构的关键原则。

统一管理(跨本地及云)

进行数据传输,部署模型的选择是由用例驱动的,可能需要多个云供应商。 今天,他们在办公场所做分析。 明天,他们想要探索一个运行深度学习工作负载的云提供商。 后天,他们想把一些工作量带回到办公地点,以获得更可预测的成本模式。 人们正在用一个统一的界面,帮助他们进行混合云之旅。 数据分析师、数据工程师、数据科学家正在使用大数据环境,他们也在寻找以人为本的经验。 希望提供一个自助服务用户界面,以便能够隐藏基础设施的复杂性,让用户专注于业务问题。

存储与计算的解耦选择

从大数据、存档数据、备份到多协议访问使用单一统一存储(S3 API,Hadoop API,NFS,iSCSI)。 S3接口提供了在站点和云中应用程序的可移植性。 每个用例具有不同的计算储存比率。 与十年前不同,网络交换机拥有10 Gbps,40 Gbps,100 Gbps 接口,对数据密集型工作负载具有更好的流量控制。 所有这些都导致计算和存储的分离,每个层可以独立地扩展。

很多更喜欢在当地存储某个类别的应用程序,在这种情况下,保持存储和计算在同一服务器中的耦合是有意义的。 考虑到遗留问题,最适合提供一个存储架构,可以扩展到数万亿的文件/对象,提供强大的一致性(不像亚马逊S3)和许多其他的对象存储解决方案,这需要应用程序来构建一个一致性层) ,最重要的是提供了做耦合和去耦合计算和存储的选项。

容器化

大多数用户希望封装隔离和多租赁在一个易于使用的界面。 自定义的容器化应用程序可以应用到集群,能够进入下一个层次——集成自己的组件,如企业数据仓库(EDW)、数据科学和工程平台等。 有很多好处。 在云环境中,可以在几分钟内创建一个按需工作的负载。 在过去,这个过程需要与服务器管理员进行数月的协调,然后建立一个新的集群。 这是云敏捷性的前提,并允许简化到一个共同的体系结构,这样 EDW 解决方案就可以在不需要任何架构检修的情况下运行在前台和云端。

共享安全和治理

可以使用像云一样的敏捷性部署容器化工作负载,需要一个共享和持久的安全和治理层来集中执行访问控制和数据治理。 由于数据是通过 Hadoop 文件系统和云对象存储分布的,希望有一个共同的安全和治理控制。 当数据环境扩展到数百亿的文件和整个组织的共享时,需要有部门级别的安全领域——考虑一个具有自身安全和治理控制的"逻辑"数据湖。

负载敏捷性

这是开放式混合体系结构的终极圣杯。 数据环境的存在,以便各种处理工作负载能够运行,从噪声中获得洞察力或信号,用户可以在他们的组织得到真正的业务转换。 许多工作负载,如 EDW,数据科学和工程平台有不同的发布节奏。这种架构能够轻松地改变独立于底层基础设施的组件的软件修改,避免一个庞大的升级,可以为大数据环境中的数以千计的租户提供一个自我服务角色为中心的用户界面来创建按需工作负载。

所有这些都导致了云和本地一致的混合架构设计。

图2 开放式混合架构

数据中心可以有多个环境或单一的环境。 一个环境包括存储、计算、安全和治理服务以及操作服务(日志、度量)。 用 户可以拥有一个100个节点的环境,存储和计算在同一服务器中被耦合在一起,从数据本地化中获益。 或者,用户可以在一个存储环境中投入50个节点和在一个计算环境中投50个节点,以便存储环境和计算环境能够独立地扩展。 存储环境规模达到数百亿个文件,而计算环境提供了容器化的体系结构来运行工作负载。

图3 开放混合架构的高层视角

用户可以拥有多个部门,分享环境,同时拥有自己的安全和治理控件,不让他们的数据集相互可见(例如垂直的医疗保健)。 可能有用户希望加入跨部门的数据集,在这种情况下,他们可以只有一个数据湖映射到一个单一的环境中。

在一个部门里可能有成百上千的租户需要解决一个商业问题并且需要一个工作量(比如 EDW,数据科学)。 管理员或部门级的架构师可以为数据集提供访问控制,并使用容器在计算环境中为租户创建一个工作负载。 现在,租户可以访问以人为中心的用户界面来访问数据集并解决他/她的业务问题。 所有的用户界面和工作负载都可以通过开放混合架构完成。

参考资料:

https://hortonworks.com/blog/open-hybrid-architecture-bringing-cloud-native-to-on-premises/

https://hortonworks.com/blog/bringing-cloud-native-architecture-to-big-data-in-the-data-center/

(0)

相关推荐

  • 了解四家全球企业如何实现云就绪?

    今天的大趋势之一是,将公有云用作内部数据中心的扩展,但如果你的虚拟机还不具备云计算的可移植性,这种扩展就会变得十分困难. 公有云可提供一定的可扩展性来解决可能很难或无法实现本地架设的场景,因此成为运行 ...

  • 在阿里云上使用大数据

    阿里云提供了一套全面的全球云计算服务套件,以帮助推动和发展您的业务.立即创建一个帐户,即可获得$300的新用户免费信用. 您知道阿里云可以用来部署应用程序.您可能不太熟悉其大数据存储和管理选项. 实际 ...

  • 私有云、公有云与混合云:到底该选择哪一个?

    目前,大多数企业的 IT 部门都是在复杂的 IT 架构中跨多个环境管理应用程序.他们还必须不断地重新评估其内部.私有云和公有云基础设施的独特组合,以满足新的业务目标,并确定如何以一种经济有效的方式将应 ...

  • 混合云时代的IBM存储“进化论”

    由数据驱动的数字经济正成为推动社会前进的主要模式,由各种创新技术驱动的数字化转型成为了全球变革的核心.在此过程中,数据成为一种新的生产资料,并由此推动了存储的技术演进.   布莱恩·阿瑟在<技术 ...

  • 老曹眼中的面向数据架构

    数据是系统的核心,在面向服务的架构之外,也可以考虑一下面向数据的架构方式.面向数据的服务架构需要支持多数据源异构,支持动态数据和静态数据,既支持公有云部署又支持私有云部署,提供多种数据应用和数据产品, ...

  • 一文读尽:云数据库、数据中台、数据趋势、数据治理、数据架构、数据安全

    一文读尽:云数据库、数据中台、数据趋势、数据治理、数据架构、数据安全

  • 一文读尽:数据趋势、数据治理、数据架构、数据中台、云数据库、数据安全(附下载链接)

    前言 一 数据趋势篇 ❖ 单模型 => 多模型 => 多模 从最早的层次模型.网状模型,发展到关系模型.后者长期占据数据的模型的主导地位,直到今天仍然如此.关系模型所带来的数据表述方式结合 ...

  • 2021 ODCC峰会 希捷解析面向未来的数据架构

    2021开放数据中心(ODCC)峰会上,存储产品再次成为关注的焦点,无论是绿色可持续发展.边缘计算.数据中心变革,还是双减.碳中和趋势下,面对全球数据信息快速增长,都对存储能耗.容量与性能提出了更高的 ...

  • 麦肯锡:面向未来驱动创新的数据架构

    我最近在研究数据和人工智能领域的趋势,我计划把Google上所有能够找到的,有一些内容的趋势行业报告都通读一遍,然后总结出一个人工智能2020趋势.这是来自麦肯锡的数据架构的报告,公众号后台回复 &q ...

  • 一文尽览:数据趋势、数据治理、数据架构、数据中台、数据安全数据运维

    作者丨韩锋频道 作为数据库领域重量级的大会,DTCC每年都会引发人们的关注.通过大会,可以了解行业动态,洞悉趋势发展,学习最新技术.今年因个人原因,没有现场参会.所幸近期大会PPT材料已放出,抽空学习 ...

  • 终于有人把大数据架构讲明白了

    导读:如何存储.如何利用大规模的服务器集群处理计算才是大数据技术的核心. 作者:李智慧 来源:华章科技 大数据技术其实是分布式技术在数据处理领域的创新性应用,其本质和此前讲到的分布式技术思路一脉相承, ...

  • 《数据要素》作者赵刚:数据交易的八种模式及其利弊分析|大数据|区块链|云服务

    数据一般具有非竞争性.非排他性,使得其并不适合作为私人产品进行交易,除非采用某种技术手段限制数据被重复使用.但是,对数据需求方而言,政府开放和共享的数据不能满足数据分析的要求,又迫切希望通过交易方式来 ...

  • ISO 8000: 面向数据质量的新兴标准

    编者按很多数据质量工作相关的人员都一直很苦恼一个问题,目前世界上没有一个成型的标准是针对数据质量的.事实上,ISO 8000,面向数据质量,在国际标准化组织(International Organiz ...