文章主题, Data Modeling

Data Modeling (数据建模)的阶段

  • 概念模型
  • 逻辑模型
  • 物理模型

这三个阶段与Hive/Spark 对于SQL语句的Explain过程如出一辙。

概念模型 ( Conceptual data model)

这个过程也可以被称作是领域数据模型,通过收集初步的项目需求,明确要覆盖的实体范围(entity class space)

笔者认为,这个过程中“实体边界” (the border of entities)是一个非常非常重要的标志。

典型的实体:

  • user
  • product
  • shop(store)

以画素描为例, 这是一个sketch阶段 - 数据框架必须要这个阶段中定义清晰。

逻辑模型 ( Logical data model)

较概念模型来说, 逻辑模型将下探到字段 field级别。

在这一过程中,不会讲究具体要用哪种技术来实现,而要在意实体关系用什么方式过滤、连接,以得到最终的结果。

核心区别, 字段级别的连接。 而在概念模型中,最多是体现表与表的关系。

这个过程应该要输出若干个业务指标,构建出一个简版的metrics roadmap.

物理模型 ( Physical data model)

最终物理模型基本到了数据仓库地图的蓝图状态了,往往是数据仓库名,字段名,字段类型的ER表现。

参考文章

ibm-learning-data-modeling