数据仓库与数据中台最大的区别是什么?终于有人讲明白了
数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持,有四个特征:
(1)面向主题:数据仓库都是基于某个明确主题,仅需要与该主题相关的数据,其他的无关细节数据将被排除掉
(2)集成:从不同的数据源采集数据到同一个数据源,此过程会有一些ETL操作
(3)随时间变化:关键数据隐式或显式的基于时间变化
(4)数据不可更新:数据装入以后一般只进行查询操作,没有传统数据库的增删改操作。数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。
数据仓库一般是分层的,目的是为了解耦和共享,从而提升对应用的支撑效率,这其实非常符合中台的沉淀共性能力的理念:
(1) ODS(Operation Data Store),操作数据层,即原始数据层,又叫贴源层,与业务系统基本同构(可能会增加管理字段),目的是保留历史,解耦业务数据库,这样整个数据平台只需要访问一次业务数据库即可。所以ODS层存在的意义是尽可能减少对业务数据库的访问压力。ODS层有些时候会细分为两层,一个STG数据缓冲层,存原始数据,一个ODS,存简单清洗的数据。
(2)DWD(Data Warehouse Detail),明细数据层,对数据进行清洗、代码统一、字段统一、格式统一、简单聚合等工作。DWD层存在的意义是做数据的标准化,为后续的处理提供干净、统一、标准的数据。
(3)DWB(Data Warehouse Base),基础数据层,又叫轻度汇总层,遵照维度模型的原理,将数据拆成维度和事实,进行维度、事实的统一。对数据进行轻度汇总,形成指标结果。
(4)DWS(Data Warehouse Service),服务数据层,按照业务目标,对已经处理好的数据进行横向汇聚、纵向汇总。按照宽表模型进行数据冗余和预计算,以空间换时间。
数据仓库跟数据中台很难说有本质区别,这是数据中台被数据仓库从业者诟病的原因,但两者对业务的支撑广度和深度不在一个级别上,数据仓库仅仅赋能决策支持,而数据中台对业务的支持是全方位的,其不仅通过API等形式直接嵌入到业务流程中发挥作用,而且还能通过数据产品直接创造价值。