1. 业务视角的数据仓库分层概念
- ODS层 (Operation Data Store): mysql -> hive放在这里 ,是从业务数据库或日志中直接采集上来的业务原生数据,不做任何清洗,转换,聚合,保持业务数据现状。该层数据的作用是:第一方便数据问题的追溯,第二对于业务数据也是一个很好的备份。
- DWD层(Data warehouse detail): ODS 表的清洗的结果,或者从外部团队接入的数据,是对数据进行了一定处理的hive表层级
- DWA层(在业务这边用DWA替代DWM-Data Warehouse Middle层): 大宽表,一般是多张dwd表的聚合得到多维度的数据(聚合结果),就定义而言即为dwm层; 数据在该层进行轻度汇总,基于分析场景合并多个业务过程,确定维度和度量。该层数据的作用是:指标计算口径下沉,统一计算口径。复用关联计算,减少数据扫描。
- MID层(在我理解中就是DWM层,但在这属于新层次): 中间表,dwd到dwa 或者dwa到dws的中间过程有比较多的共用部分,会抽出mid层,这一层仅对本业务透出,就是仅对本业务透出的中间层的中间层 。
- DWS层(Data Warehouse Service): 一般是面向业务的聚合层,比如对某个业务具体指标的透出就可以放在dws层,就比如新手任务的指标就可以放在这层
- APP层 如果要将结果数据写入mysql/es/clickhouse,我们就看先把结果数据放在这里。这是一个面向业务使用层面,数据将在该层与应用场景进行映射,一张数据表对应一个数据需求。
2.数据分层原理和作用
层级缩写 | 中文名称 | 英文名称 | 分层特征 | 描述 |
---|---|---|---|---|
ODS | 数据贴源层 | Original data store | 某一时刻业务数据快照。 | 是从业务数据库或日志中直接采集上来的业务原生数据,不做任何清洗,转换,聚合,保持业务数据现状。该层数据的作用是:第一方便数据问题的追溯,第二对于业务数据也是一个很好的备份。 |
DWD | 数据明细层 | Data warehouse detail | 与ODS粒度一致。 | 清洗、加工、转换和集成。划分主题和确定业务过程。数据在该层进行清洗、加工、转换和集成,但不做数据汇总。在该层开始对数据进行主题划分,确定业务过程和数据粒度。该层数据的作用是:保证样本数据质量,提升业务明细数据的可用性。 |
DWA | 数据聚合层 | Data warehouse aggregation | 统一计算口径,逻辑封装。 | 基于实体的轻度汇总和标签处理。数据在该层进行轻度汇总,基于分析场景合并多个业务过程,确定维度和度量。该层数据的作用是:指标计算口径下沉,统一计算口径。复用关联计算,减少数据扫描。 |
DM | 数据集市层 | Data market | 1. 多维指标汇总。 2.数据立方体构建。 | 数据在该层进行多维数据立方体汇总,划分核心维度和非核心维度,对数据服务进行分级保障。 |
APP | 数据应用层 | Application | 派生/衍生指标。合并数据呈现需求结果。 | 业务结果层,面向业务使用层面,数据在该层与应用场景进行映射,一张数据表对应一个数据需求。 |
DIM | 公共维度层 | Dimension | 业务观察视角。一经生成几乎不变。 | 业务观察视角。 |
转载无需注明来源,放弃所有权利