Data governance 『数据治理』

  • Data discovery

on-time 嗅探上游的metadata变动, 新增表,字段,格式, etc。

**- Data catalog **

业务上的数据标签

  • Data lineage

数据表的依赖关系 DAG。
发现数据是如何生产的,数据的流动和加工明细。

  • Data dictionary

较好理解,业务方定位数据或查询使用的产品。 通过关键字或数据标签或指标,定位到数据解释的含义。
有特殊编码的字段,一般需要在这里给出对应的mapping meaning。

  • Data taxonomy

数据分门别类的管理。 按业务划分。

  • Data classification

数据按安全和访问程度分级,与上面的taxonomy 不同。
比如敏感的客户数据(手机号,地址,信用卡)高严重级。

  • Data stewardship
    数据监管和管理。

  • KPI definition (Core metrics)

Data collection 数据集成

实时数据
近实时
离线数据

集成建议, metadata-driven data collection

数据源管理工具。

Data ingestion

Schema registration(Schema 注册
Schema validation

Data classification 敏感数据标记 在这里

Data transformation

(ETL) 的核心过程
Data structuring

Data cleansing/filtering

Data integration

Data storage & consumption

Business intelligence
Maching Learning
Data warehousing, Data lake
Semantic layer

Sensitive data protection

Role -based access control (RBAC)

根据角色定义的数据访问权限系统。

Data de- identification 

数据加密和脱敏

Encryption, masking, Tokenization, Hashing

Youtube视频