滴普科技湖仓一体数据智能平台 助力国央企打破数据孤岛
湖仓一体数据技术架构带来更多可能
放眼未来,满足大型集团企业数据智能化需求的新一代大数据平台,还需覆盖几个关键能力:
(相关资料图)
1、事务支持
Lakehouse在企业级应用中,许多数据管道通常会同时读取和写入数据。通常多方同时使用SQL读取或写入数据,Lakehouse保证支持ACID事务的一致性。
2、模式实施和治理
Lakehouse应该有一种支持模式实施和演变的方法,支持DW模式规范,例如star/snowflake-schemas。该系统应该能够推理数据完整性,并且应该具有健壮的治理和审核机制。
3、BI支持
Lakehouse可以直接在源数据上使用BI工具。这样可以减少延迟,提升数据实时性,并且降低必须在数据湖和仓库中操作两个数据副本的成本。
4、存储与计算分离
事实上,这意味着存储和计算使用单独的群集,因此这些系统能够扩展到更多并发用户和更大数据量。
5、兼容性
Lakehouse使用的存储格式满足开放和标准化需求,例如Parquet,并且它提供了多种API,包括机器学习和Python/R库,因此各种工具和引擎都可以直接有效地访问数据,并且支持从非结构化数据到结构化数据的多种数据类型。
就目前来看,国内外各大厂商都已经在重兵部署“湖仓一体”技术方案,如亚马逊云科技的Redshift Spectrum、微软的Azure Data Lake、Databricks、华为云的FusionInsight、滴普科技的FastData等,并赋能各行业数据平台建设。
作为湖仓一体数据智能基础软件独角兽,滴普科技凭借新一代湖仓一体、流批一体优势,为诸多央国企提供了数据平台建设方案。以某能源集团为例,该集团是以油气业务、工程技术服务、石油工程建设、石油装备制造等为主营业务的综合性国际能源公司,该集团希望由离线数仓升级为新一代实时湖仓,实现全量油田数据入湖。基于此,滴普科技将DLink实时湖仓引擎与该集团现有平台进行集成,支持结构化、半结构化数据的实时汇聚,同时能够实现数据实时计算、联邦查询等高级特性。
通过滴普科技的湖仓一体技术赋能,为该能源集团提供了11大类全量油田数据入湖服务,并基于滴普科技DLink Mesh提升油田勘探开发数据服务的时效性,及主数据湖和分布式区域湖管理等能力,支撑八大油气数据应用智能场景,以数据驱动业务价值,让数据实现可用、好用、易用。
小 结
技术创新为央国企的智能化创新带来了更多可能性,而满足新时代需求的湖仓一体,可以在海量数据处理、多模数据入湖和存储、湖仓数据应用、数据全链路追踪等方面,有更卓越表现,真正满足企业在大数据分析过程中遇到的敏捷性和实时性等特定场景要求。
从这个角度看,湖仓一体掀起央国企数据智能化创新浪潮,不是没有可能。要想以数据驱动业务价值,让数据可用、好用、易用,“湖仓一体”自然是大数据平台的首选。未来,随着央国企数字化转型进程加快,“湖仓一体”的发展前景或将不可估量。