在2019全球数据基础设施论坛上,华为全面启动了数据基础设施战略,发布并开源了数据虚拟化引擎HetuEngine(河图引擎)。今天就和大家一起来了解一下河图引擎的核心能力,以及它是如何成为连接数据湖基础设施与数据应用之间的桥梁,让数据更易于挖掘和治理。
随着自动驾驶、4K/8K视频、AR/VR、物联网等应用兴起,数据量成爆发式增长。根据华为全球产业展望(GIV)报告显示,全球数据量将从2018年32.5ZB快速增长到2025年的180ZB。海量的数据孕育了巨大的机遇,也带来了极大的挑战。生产系统产生的海量数据,如果不进行分析挖掘,数据只能算是一种资源,甚至会成为企业的负担。
数据湖为数据分析挖掘场景而生。数据湖这一概念,最早是在2011年由CITO Research网站的CTO和作家Dan Wood首次提出。其比喻是:如果我们把数据比作大自然的水,那么各个江川河流的水未经加工,源源不断地汇聚到数据湖中。数据湖初衷是对海量的多样性数据集中低成本存储,然后通过融合协同分析,挖掘数据价值。让数据应用简单、好用、低成本,满足业务创新诉求。但现实的数据湖,由于方案不完整,多技术并存,没有厂商能提供完整数据基础设施(计算、存储、软件、硬件)等诸多因素,导致各组件,各系统不能很好的协同,依然存在大量数据孤岛,协同分析难,成本高,灵活性低。
而华为这次发布的数据虚拟化引擎-河图引擎,通过“一个目录、一个入口、一份数据、统一安全”四大核心能力。华为FusionData智能数据湖解决方案基于河图引擎,可屏蔽数据基础设施与应用对接的复杂度,降低开发难度,打破数据库与大数据壁垒,升级为“大数据库”。与数据中台进行客户应用改造的方式不同,华为河图引擎是一个让数据基础设施走向平台化的平台,不会对客户原有应用改造,为客户和伙伴提供标准的接口,对下解决数据接入和共享的难题,对上确保多样化应用按需接入,实现数据的分析挖掘。最终让客户数据应用更简单,让业务更敏捷。
河图引擎具备4个核心能力:
● 一个目录:通过元数据在线感知,构建1000+异地异构数据源全局虚拟数据视图,打破数据孤岛,数据全局可视,解决企业数据查找难问题。
● 一个入口:通过开放的连接框架、5000节点SQL引擎,实现30种异地异构数据源统一SQL访问,秒级获取,数据全局可得,解决企业数据获取难问题。
● 一份数据:通过CarbonData技术,实现一份数据多场景分析,多应用共享,数据0搬迁,数据全局可用,解决企业用数难问题。
● 统一安全:通过细粒度动态授权、敏感数据自动感知技术,实现异地异构数据源集中式安全配置与管控,数据全局可控,数据授权时间从天到秒,解决企业数据安全与合规问题。
华为之所以将数据虚拟化引擎命名为河图引擎,源自“大禹得河图后始见清明”。大禹治水有三件法器,一件是河图,一件是定海神针,一件是开山斧,治水的过程首先是通过河图总览河流山川地形地貌,然后通过定海神针先稳定水势,最后开山斧依据山川地形地貌疏通水路。河图寓意是华为做好数据湖基础设施,让“大禹”(合作伙伴和客户)拿着开山斧,定海神针更加易于挖掘,治理数据。通过“平台+生态”策略,在数据产业里创造一个共赢的生态环境。