数据编织，大数据的新风口？

2024-07-31 12:48:02

怎么实现“数据找人而不是人找数据”的梦想？“数据编织”（Data Fabric）悄然登场。2018年“Data Fabric”首次出现在Gartner的十大数据与分析技术趋势中，以后每年它都会出现在其中。10年前大数据概念在国外兴起后，不到3年就被中国用户广泛接受，而今天大多数中国厂商则是按兵不动，这又是为何呢？

从“数据经纬”到“数据编织”

Data Fabric的中文名字到底怎么翻译，IBM公司与Gartner有了分歧。IBM大中华区科技事业部云计算与认知软件部数据与人工智能信息架构产品总监王积杰将其称为“数据经纬”，而Gartner高级研究总监孙鑫认为“数据编织”更为合适，因为他认为数据编织更凸显“动态”。

在Data Fabric出来之前，数据结构的设计主要部署成静态基础设施，而在未来将需要采用更动态的数据网格方法全面重新设计。

孙鑫在接受记者采访时表示，Data Fabric不是一个产品而是一种设计理念，是利用AI、机器学习和数据科学的功能，访问数据或支持数据动态整合，以发现可用数据之间独特的、与业务相关的关系。

而IBM对Data Fabric的看法，与Gartner专家提到的“动态”“数据网格”和AI赋能并无冲突。IBM中国研发中心首席技术官赵军伟解释说：“经纬作为名词，本意为织物的直线与横线，引申为连接万物的规律，作为地理概念，经纬度可以定位地球上任何一个位置，而'数据经纬’则可以在纷繁复杂的企业数据目录里定位任意一个数据源。经纬用作动词，是规划治理的意思，《周书·静帝纪》中提到的'经天纬地’就是治理天下的意思。”

“我们可以把Data Fabric想象成一张虚拟的网，这张网并不能理解为一种点对点的连接，而是一种虚拟的连接，每个节点都可以是不同的数据系统，不同系统上的数据在网上都可以迅速地被定位和找到。Data Fabric的主要功能是把正确的数据，在正确的时间里，给到正确的人。通过DataFabric，对的人可以从对的地点，在对的时间里，获取对的数据。” 王积杰对记者说。

现在的数据连接的架构设计还主要是“人找数据”，而Data Fabric设计核心是“数据找人”，在合适的时间、将合适的数据推送给需要的人。

为什么Data Fabric将会成为一种趋势，为什么越来越多的企业将在未来采用这样的方式进行部署？王积杰谈及了数据利用结构模式的变化。传统IT时代，无论是早年的“数据仓库”还是近几年的“数据湖”和“大数据”时代，其实数据利用都是集中式的架构，把数据收集到一起，让企业的数据分析师、BI（商业智能）分析师对数据进行分析。但在云计算时代，用户业务部署在多云的环境下，要想将分布在不同云上的数据集中在一起成本很高，也很费劲，于是采用去中心化、分布式的数据网络架构就成为了必然选择。

Data Fabric可以同时给业务和技术团队带来明确的价值，王积杰表示，从业务层面来看，由于企业能更容易地获得高质量的数据，从而能更快和更精确地获得企业数据洞察。从技术层面来说，由于数据复制的次数和数量较少，从而减少了数据集成的工作，方便维护数据质量和标准，也减少了硬件架构和存储的开销。由于减少了数据复制和大大优化了数据流程，加快并简化了数据处理过程，从而通过实施自动化的整体数据策略，减少了数据访问管理的工作。

Gartner认为，随着数据的日益复杂以及数字化业务的加速发展，Data Fabric已成为支持组装式数据分析及其各种组件的基础架构。由于在技术设计上能够使用/重复使用及组合不同的数据集成方式，Data Fabric可缩短30%的集成设计时间、30%的部署时间和70%的维护时间。IBM 7月发布的Cloud Pak for Data4.0的软件组合增加了智能化的Data Fabric功能，其中AutoSQL（结构化查询语言），可以通过AI来自动访问、整合和管理数据，可以帮助客户以8倍的速度、不到一半的成本，获得分布式查询的答案。

变“人找数据”为“数据找人”

要实现“数据找人而不是人找数据”，Data Fabric究竟如何“编织”？

王积杰认为，Data Fabric至少需要四个维度的能力。一是能够在数据之间建立虚拟链接，简化数据访问的模式，从而减少数据复制的数量。二是需要建立一个企业数据目录，并需要利用AI技术，自动化地实现基于语义和知识的分析，理解数据及其业务含义，并建立知识图谱，从而使数据目录变得智能化和自动化。能够让需要数据的用户，随时了解到需要的数据在哪里、数据质量如何等。三是建立自动化数据平台，允许用户通过自服务的方式，访问并获取数据。四是通过提供整体的自动化策略，确保数据安全，增加数据的隐私和权限保护，并提高数据质量。

数据编织是一种新的设计理念，它是数据管理、数据收集理念的变化，与数据仓库、数据湖等技术并不是替代的关系，既可以运用现有的数据中枢、数据湖和数据仓库的技术和技能，也可以在未来加入新的方法和工具。

孙鑫谈到了实现Data Fabric的一些关键技术，比如增强型数据目录，要想实现数据找人，而不是人找数据，需要增强的数据目录，它要涵盖用户使用数据的频度与机制，了解数据与业务的关系，还包括知识图谱，通过知识图谱找到数据与业务之间的关系，找到元数据利用的整合策略，也包括推荐引擎以及在数据准备阶段的低代码等工具，低代码工具的作用在于降低数据使用的门槛，加速数据产品化。

从Data Fabric推动的难点来看，“一是理念层面的难题，中国的用户还没有意识到，数据利用和使用的方式已经发生改变，传统的集中收集再利用的方式已经不能满足需要。二是目前很多企业对于元数据不够重视。三是从人的角度看，需要提升企业数据工程师对知识图谱、图语言、图建模等数据工具的能力培养。四是数据编织的实现并不是找到一个厂商就能够完成，它是一个旅程，需要分几步走。”孙鑫认为，从用户的角度看，率先采用Data Fabric的是金融电信行业以及数据应用场景比较复杂的用户。

在这一点上，王积杰表达了与孙鑫一致的观点——这是一个方向，但并不能一蹴而就，用户需要分步实施，关键是要意识到趋势，在后续的项目实施中，按照Data Fabric的理念来构建。

国内厂商为何按兵不动？

尽管Gartner、Forrester等分析机构在几年前就提出Data Fabric是数据利用与分析领域的革命性变革，是未来方向，但记者联系国内大数据相关领域企业进行采访时发现，对此了解或进行布局的企业并不多，甚至找不到。

这与国内大数据厂商的分布有关。“国内有很多做数据库的企业，也有很多做BI（商业智能）的企业，但做数据整合的企业很少。而事实上，在国外做数据编织的往往是数据整合、数据虚拟化的厂商，这就很好理解为什么国内的大数据厂商迟迟未入场Data Fabric，因为这类企业就不多。” 孙鑫告诉记者说。

从公开信息看，目前IBM、Informatica和Telend等推出了针对 Data Fabric的解决方案，王积杰透露，IBM的Cloud Pak for Data针对上述Data Fabric必须具备的四个基本能力，都能给予很好的支持，而且在IBM内部是以前所未有的力度在推动。但除了IBM之外，那些传统关系型数据库、云数据库的大公司们目前并没有积极入场。

大厂商们没有入场很好理解，因为在Data Fabric的理念下，往往需要采用点和边的新方式去描述数据关系，需要知识图谱、图数据库等，这往往是新锐公司在做的领域，而大厂商们往往有自己的数据整合工具，他们都希望在自己的平台上进行整合，但是这样的局面一定会在之后的几年发生变化。

“Data Fabric这个概念在国际上已经热起来了，但目前国内的IT用户知道的人还不多。10年前大数据的概念在国外兴起后，不到三年就被中国用户广泛接受，未来这个 Data Fabric概念，中国将需要多久接受并加以应用呢？等待时间给出答案。“王积杰说。

【杂谈】抽奖送5台GPU使用权限，有三AI季划成员专属GPU也安排上了

5台24G显存的GPU 本次免费的GPU来自于我们的老牌合作伙伴FlyAI,很多同学应该都知道,也在里面打过榜赢过钱,有三AI与FlyAI还一起举办过比赛,这是一个有奖竞赛社区. 如果不清楚FlyAI ...
Gartner：2021年十大数据和分析趋势

全文共计2810字,预计阅读时间6分钟来源 | Gartner公司(转载请注明来源) 作者 | Gartner研究总监孙鑫编辑 | 蒲蒲在新冠疫情肆虐时,使用传统分析技术并因此而严重依赖大量历史 ...
Gartner：到2023年10%的工人会尝试欺骗AI霸主|人工智能|AI

新酷产品第一时间免费试玩,还有众多优质达人分享独到生活经验,快来新浪众测,体验各领域最前沿.最有趣.最好玩的产品吧~!下载客户端还能获得专享福利哦! 本文来自cnBeta 分析公司Gartner预测, ...
大数据时代大数据技术的应用和面临的挑战

大数据时代,大数据已经成为了我们生活中一个重要的角色,他在每一个领域都发挥着重要的作用,给我们的生活生产都带来了非常多的便利,那么大数据在我们生活中到底有哪些应用呢?又面临这哪些挑战呢? 一.大数据技 ...
大数据及大数据技术

一.大数据的概念对于互联网行业来说,随着电子商务及互联网的应用越来越多,数据的量呈现指数级的增长,数据的类型也日益多样.海量的数据不仅体量大,而且最为关键的是常规的数据处理技术已经无能为力,大数据处 ...
【大数据】大数据时代政府决策机制的变革

关于大数据在公共决策中的重要作用,学界普遍认为,公共决策不仅能够利用大数据提高政策水平和质量,更重要的是面向和适应越来越数据化的社会环境,借助大数据网络平台,实现政府决策的民主化和科学化.实践中,大数 ...
会员专享｜1998~2013 年中国工业企业数据库与专利数据库匹配结果数据（大数据预警！7G）

今天给大家分享一份 1998-2013 年的工企业数据库与专利数据库匹配的结果数据(包含工企业数据库的全部数据和一些专利的信息)其中 1998-2009 年的专利数据来源于 Chinese Paten ...
明略数据工业大数据专家葛利鹏：大数据驱动的工业人工智能初探

数据猿导读工业在我国经济中占比较重要的地位.近年来,我国经济的快速发展,进入了一个中高速增长的新常态.工业在中国经济中的比重依然在不断增强.同时,工业和我们日常生活是息息相关的. 作者 | 葛利鹏 ...
链家与网易合作重塑房产交易市场，浪潮联合多家机构共建教育大数据实验室 | 大数据24小时

数据猿导读环境大数据公司"泛测环境"完成2000万元融资:用大数据重塑房产交易市场,链家网宣布与网易达成战略合作:物联网大数据公司"云基物宇"拟新三板挂牌上市 ...
法巴银行拟30亿欧元投资科技领域，华为在南通市欲建云计算数据中心 | 大数据24小时

数据猿导读基于云计算技术的通信公司Fuze获1.04亿美元融资:法国巴黎银行拟30亿欧元投资科技领域,以面对市场冲击:我国首家大数据流通与交易技术工程实验室正式揭牌成立--以下为您奉上更多大数据热点 ...
京东金融发布2017年战略计划，Facebook在丹麦建第四家数据中心 | 大数据24小时

数据猿导读京东金融发布2017年战略,将把人工智能.大数据作为重点发展方向:Facebook将建海外第三大数据中心,预计2020年投入运营:准备登陆纽交所的Snap拟20亿美元购买谷歌云基础设施服务 ...
二手车交易市场火爆空前，业绩下滑！鸿海决心进军大数据领域 | 大数据24小时

数据猿导读二手车电商优信获5亿美元融资,利用互联网和大数据重点发力B端车商:收购夏普反倒使业绩下滑,鸿海决心发力大数据领域:大数据移动互联网服务商点春科技新三板挂牌上市--以下为您奉上更多大数据热点 ...
刚刚获得1.1亿美元的运满满与阿里云达成合作，上海市宣布成立大数据中心 | 大数据24小时

数据猿导读房地产内容营销及数据技术服务商"博加信息"新三板募资3920万元:互联网安全服务商斗象科技完成7000万元融资:基于大数据的整合营销公司"汉云信息" ...

数据编织，大数据的新风口？

相关推荐