Netflix

2018年

Shopee

2021

shopee@2021, Author: Huang Lianghui (Data warehouse architecture )

Shopee 2020年Q1季度的订单量达429.8 million 较2019年同比增长110%

数据集成层:  Binlog, Service Log
数据存储层, kafka持久化消息stream, HDFS/HBase (HBase存储维度数据)
计算查询引擎: Spark, Flink, Presto SQL
调度管理层: Airflow,  Streaming SQL Platform, Streaming Job Management
OLAP存储层, Druid, Phonix(HBase), Elastic Search
应用层: 数据报表, 用户画像和其它商业应用

实时数据仓库: Flink, druid + hive

Shopee 将DB的Binlog 同步到Kafka,通过Flink或Spark应用,计算实时的销售数据\ 用户下单和商品浏览等行为数据.最终结果存储到Druid和HDFS. 任务正由Spark的Structured Streaming迁移到Flink.

计算架构使用Lambda:

  • Flink只处理当天的增量数据
  • 离线任务处理T-1

Challenges

数据规模增长 expansion of data scale , various query requrements,
实时需求的迫切性 , T+1 不再满足当下业务需要

  • BI teams's real-time demand
  • real-time label training
    技术开发,维护成本高 开发成本高

AirBnB

2016

数据集成: EventLogs接Kafka, RDB接Sqoop 进HDFS S3集群
数据存储: S3, 主备两个集群 (gold, silver)
计算调度: Airflow
补充: Spark集群和Presto集群
数据应用: Airpal, Panoramix, Tableau

Airpal是一个Presto即席查询平台.