Data Marketplace
Data governance 『数据治理』
- Data discovery
on-time 嗅探上游的metadata变动, 新增表,字段,格式, etc。
**- Data catalog **
业务上的数据标签
- Data lineage
数据表的依赖关系 DAG。
发现数据是如何生产的,数据的流动和加工明细。
- Data dictionary
较好理解,业务方定位数据或查询使用的产品。 通过关键字或数据标签或指标,定位到数据解释的含义。
有特殊编码的字段,一般需要在这里给出对应的mapping meaning。
- Data taxonomy
数据分门别类的管理。 按业务划分。
- Data classification
数据按安全和访问程度分级,与上面的taxonomy 不同。
比如敏感的客户数据(手机号,地址,信用卡)高严重级。
-
Data stewardship
数据监管和管理。 -
KPI definition (Core metrics)
Data collection 数据集成
实时数据
近实时
离线数据
集成建议, metadata-driven data collection
数据源管理工具。
Data ingestion
Schema registration(Schema 注册
Schema validation
Data classification 敏感数据标记 在这里
Data transformation
(ETL) 的核心过程
Data structuring
Data cleansing/filtering
Data integration
Data storage & consumption
Business intelligence
Maching Learning
Data warehousing, Data lake
Semantic layer
Sensitive data protection
Role -based access control (RBAC)
根据角色定义的数据访问权限系统。
Data de- identification
数据加密和脱敏
Encryption, masking, Tokenization, Hashing