数据仓库的规范
in Tutorial with 0 comment
数据仓库的规范
in Tutorial with 0 comment

前言

这是一篇《数仓规范详解文档》的阅后笔记,文章来自大数据习研社。有时候在工作中,总是会因为各种时间紧迫等理由,要求快速完成任务,快往往意味着事情质量可能不好,怎么又快又好?我想到的答案是规范。规范地做事是很专业的,是职场所需的技能。

这里重点讲讲数仓的规范。

为什么要有规范

01.jpeg.jpg

规范该怎么落地

2023-05-22T14:21:29.png

02.jpeg.jpg

03.jpeg.jpg

数仓规范有哪些

数仓规范,一共分为四大类:设计规范、流程规范、质量管理规范、安全规范。

设计规范

数据模型设计

04.jpeg.jpg

05.jpeg.jpg

06.jpeg.jpg

命名规范

07.jpeg.jpg

代码设计规范

08.jpeg.jpg

指标体系建设

09.jpeg.jpg

词根库

10.jpeg.jpg

流程规范

需求提交流程

16.jpeg.jpg

模型设计流程

11.jpeg.jpg

ETL开发流程

12.jpeg.jpg

上线流程

13.jpeg.jpg

质量管控规范

14.jpeg.jpg

安全规范

15.jpeg.jpg

总结

原文章的作者经历过的几家公司、好多个项目里,也没有哪个项目完整的使用过以上所有规范,互联网大数据公司比之前的传统数仓项目用到的规范还更少些而且侧重点也不太一样。
大数据公司可能由于互联网基因吧,更加侧重数据安全、工具化等,对数据质量、数据模型等要求不太高。而传统数仓对数据建模、数据质量的要求很高。

说一下我的心得,主要是看数据对业务来说的重要性,例如是内部的运营数据,是不会有太多的规范的.如果是业务数据,更多是看数据的稳定性,例如数据能不能恢复,不能恢复的情况下能不能重新输出新数据代替丢失数据,以及生产业务数据的实时性。规范更多是让问题出现频率更少,从而实现效率的提升。

Responses