企业级数据基础设施的设计思路是“操作系统”
奇点云 2023-09-11

“数据场景复杂多变,只能不断推倒重构?”

 

近日,在《数据云场景指南》线上发布会,奇点云合伙人、CTO地雷带来了一个“新物种”——数据云操作系统

 

他认为,企业级数据基础设施应采用“操作系统”的设计,来帮助企业应对多云、多引擎、多主体、多应用等挑战,封装复杂性,提供易用性。

 

同时,地雷“剧透”了奇点云最新的产品体系架构:仍延续“平台+应用”模式,而相较此前更为突出的是,数据研发应用、数据分析应用、数据安全应用、行业数据应用都基于共同的OS Kernel(操作系统内核)建设。

 

下文整理自奇点云CTO地雷于《数据云场景指南》线上发布会的演讲,经过删减编辑。点击阅读原文,可查收完整直播回放。

 

 

数据场景复杂多变 

只能不断推倒重构?

在过去七年陪伴客户数字化转型的过程中,我们发现许多客户的数据基建有共同点,他们面临着相似的难题,例如技术选型、资产治理、数据合规等等。

 

因此我们归纳总结了“传统数仓升级”、“数据技术栈优化”、“集团数据云服务”等七大典型场景,并将数十组常见问题和对应解法写入了《数据云场景指南》。相信绝大多数企业都能从中找到所处阶段,查阅数据基础设施建设时必须关注的要点。

 

点击上图或文末扫码,下载《数据云场景指南》

 

但必须注意的是:数据场景不是一成不变的。

 

相信大家也有切身体会,业务在发展,数据建设要响应和满足业务需求,就会面临新的难题,基础设施就永远不可能“一劳永逸”。

 

比如,原来基于核心业务部门的需求进行数字化建设,完成了部分主题域的数据治理和资产管理。财务部门突然说,“干得不错,下一期把财务域也规划进去。”那怎样的技术架构才能同时实现“财务数据安全隔离”和“业财一体”?

 

又如,原来T+1看个报表就够了,接下来要做实时,那你用离线的方式实现准实时,还是引入新的引擎来实现实时场景?离线、实时、时序等引擎是否都采用烟囱式的结构进行资源分配?目前规划的资源够不够用?数据一致性还能不能保证?

 

有一些制造业企业发展非常快,在一个生产基地有了成熟的数字化实践,希望能把这一整套复制到全国更多的生产基地。其中,数据业务逻辑可以复用,但生产基地之间数据要隔离、互不影响。数据团队是选择从头再建一二三四遍,还是有其他方便的办法?

 

面对这些难题,很多时候企业只能选择推倒重构,或烟囱式地新建其他技术栈来满足需求,再把新旧系统通过某种方式关联,最终让数据基础设施变得无比冗杂。

 

 

我和许多客户的CTO、CIO交流发现,客户都有这样的同感:

数据基础设施已经投入了很多精力、时间、资源,但是数据应用的范围一直在扩展,数据技术的演进一直在加快。新需求一再要求引入第N套数据存算引擎,数据技术栈的链路越来越长,架构越来越繁杂,成本越来越高,运维越来越痛苦了。

 

而且你不知道什么时候才是尽头——伴随着数字化进程,企业内部必然更多的数据应用,来满足不同业务线不同的需求,这些应用又需要多个计算引擎、多个数据源甚至多个云资源来支撑。伴随业务升级,数据应用还会不断迭代发展,之前预设好的数据源、数据引擎都会变化。

难道推倒重构、重复造轮子是唯一选择?

 

 

告别烟囱式建设

需要DT时代的“操作系统”

当“多对多”的情形频繁出现时,计算机领域里其实有一种经典的思考,即“分层”。底下的“多”和上层的“多”之间,有一个“中间层”能覆盖上下连接时会遇到的各种复杂性。

 

那对于企业级的数据基础设施来说,它的“中间层”应该做到什么?

作为“中间层”,它要提供对接应用的北向接口和对接底层资源的南向接口,要有一套抽象足够优雅的对象体系,来提升系统的可维护性、可复用性、可扩展性;

 

作为数据的基础设施,它当然要支持数据治理、元数据管理等功能,具备数据安全合规能力;

 

作为向企业各部门供应强劲数据源动力的“平台”,它还要具备跨云、多租户隔离、多引擎混合调度等复杂技术能力;

 

作为企业核心系统,最基本的,它应该做到“可靠”。通过可观测的机制,借助数据和模型,来保障它的稳定性得到监控,能实现智能运维而不是人肉运维。

 

谈到这里,是不是有种“似曾相识”的感觉?

 

上述整个架构设计,完全符合“操作系统”的定义。注意,此处“操作系统”并不是一个比喻,而是真实的OS(Operating System,即操作系统)。

 

奇点云的数据云操作系统遵循“资源抽象,接口统一”的原则,采用如下分层:

· 南向接口对接云资源、数据源、引擎等底层资源,北向接口对接数据应用;

· 中间层为一组对象体系——将大数据领域的存储、计算、服务、调度、安全、租户等常用功能,抽象为一组标准对象模块(目前为6个域共32个对象)。足够详尽准确的对象加上对象之间的关联关系,能满足几乎所有数据业务场景的基本需要。

 

*顺便一提,当我们从数据云的视角完成6个域32个对象的设计后,会发现DT(数据技术)的OS和IT(信息技术)的OS有一定的对应关系,例如数据云操作系统中的“空间域”与计算机操作系统的“驱动程序管理”履行着类似的责任。但二者使命不同,因此我们不建议刻板地对照。

 

奇点云的数据云操作系统分层原理

 

也就是说,数据云操作系统解耦了复杂的底层体系和多变的上层业务,对象的属性和行为又天然可以被继承、更新、扩展及复用,企业在数据模型及应用的研发上就会变得简单高效,而不再需要从头摸索底层技术架构,或为新的场景不断重构,也因此规避了“烟囱式”应用孤岛的出现。

 

 

其实,本次发布并不是“数据云操作系统”的首次面市。数据云平台DataSimba的R4版本已更新为上述架构(基于数据云操作系统内核,即SimbaOS Kernel)。

同时,包括GrowingIO增长分析、客户数据平台及行业数据应用等在内的奇点云旗下所有数据应用,均切换为数据云操作系统的底座。数据安全引擎DataBlack R2.0开始能支持全域全场景的数据安全合规,提供平台型的能力,也正是得益于此。

 

 

操作系统的价值,打分权在于上层的应用及开发者。下篇将基于《数据云场景指南》线上发布的圆桌对话环节,分享数据开发、数据应用视角对数据云操作系统的实践与评价,及展望大数据与AI基础设施的理想形态。

 

热门搜索:数据中台数据云平台客户数据平台CDP数据智能数据应用鞋服地产美妆商超家装数据资产数据治理数据可视化

联系我们:
电话:400-080-0326     邮箱:business@startdt.com     时间:09:00 - 18:00(工作日) 杭州:浙江省杭州市余杭区良睦路 1399 号梦想小镇互联网村 15、17 幢(总部) 北京:北京市海淀区大钟寺东路 168 号中嘉大厦 402 室 上海:上海市徐汇区虹漕路 88 号 H88 越虹广场 B 栋 9 楼 B、C 单元 深圳:广东省深圳市南山区 高新南六路6号 迈科龙大厦 1402

2016 - 2022 StartDT.com 版权所有 ICP证: 浙ICP备17004958号 法律声明及隐私政策

浙公网安备 33011002015629号