前言
这是一篇《数仓规范详解文档》的阅后笔记,文章来自大数据习研社。有时候在工作中,总是会因为各种时间紧迫等理由,要求快速完成任务,快往往意味着事情质量可能不好,怎么又快又好?我想到的答案是规范。规范地做事是很专业的,是职场所需的技能。
这里重点讲讲数仓的规范。
为什么要有规范
规范该怎么落地
数仓规范有哪些
数仓规范,一共分为四大类:设计规范、流程规范、质量管理规范、安全规范。
- 设计规范,又划分为五部分:数据模型设计、命名规范、代码设计规范、指标体系设计、词根库。
- 流程规范,主要是从数仓管理的角度,对数仓场景下的各种流程进行约束。核心流程一共提炼出来五类:需求提交、模型设计、ETL开发、前端开发、上线流程。
- 质量管控规范,之所以单独列出来,是因为数据质量,跟模型设计一样,对数仓建设的成败关系极大。试想下,一个数据质量都无法保证的数据仓库,有谁会用? 数据质量规范,主要是从数据流动的角度分为三类:源端管控、数仓管理、应用管控。
- 安全规范,随着国家、社会、企业对数据的越来越重视,另一方面随着互联网的普及使得个人隐私变的越来越难以保证,数据泄露时有发生。数据安全对于数据仓库的重要程度急速提升,所以安全规范被单列了出来。从大的层面上安全规范分为三类:网络安全、账号安全、数据安全。
设计规范
数据模型设计
命名规范
代码设计规范
指标体系建设
词根库
流程规范
需求提交流程
模型设计流程
ETL开发流程
上线流程
质量管控规范
安全规范
总结
原文章的作者经历过的几家公司、好多个项目里,也没有哪个项目完整的使用过以上所有规范,互联网大数据公司比之前的传统数仓项目用到的规范还更少些而且侧重点也不太一样。
大数据公司可能由于互联网基因吧,更加侧重数据安全、工具化等,对数据质量、数据模型等要求不太高。而传统数仓对数据建模、数据质量的要求很高。
说一下我的心得,主要是看数据对业务来说的重要性,例如是内部的运营数据,是不会有太多的规范的.如果是业务数据,更多是看数据的稳定性,例如数据能不能恢复,不能恢复的情况下能不能重新输出新数据代替丢失数据,以及生产业务数据的实时性。规范更多是让问题出现频率更少,从而实现效率的提升。
本文由 Chakhsu Lau 创作,采用 知识共享署名4.0 国际许可协议进行许可。
本站文章除注明转载/出处外,均为本站原创或翻译,转载前请务必署名。