Data Architectures in companies
Netflix
2018年
Shopee
2021
shopee@2021, Author: Huang Lianghui (Data warehouse architecture )
Shopee 2020年Q1季度的订单量达429.8 million 较2019年同比增长110%
数据集成层: Binlog, Service Log
数据存储层, kafka持久化消息stream, HDFS/HBase (HBase存储维度数据)
计算查询引擎: Spark, Flink, Presto SQL
调度管理层: Airflow, Streaming SQL Platform, Streaming Job Management
OLAP存储层, Druid, Phonix(HBase), Elastic Search
应用层: 数据报表, 用户画像和其它商业应用
实时数据仓库: Flink, druid + hive
Shopee 将DB的Binlog 同步到Kafka,通过Flink或Spark应用,计算实时的销售数据\ 用户下单和商品浏览等行为数据.最终结果存储到Druid和HDFS. 任务正由Spark的Structured Streaming迁移到Flink.
计算架构使用Lambda:
- Flink只处理当天的增量数据
- 离线任务处理T-1
Challenges
数据规模增长 expansion of data scale , various query requrements,
实时需求的迫切性 , T+1 不再满足当下业务需要
- BI teams's real-time demand
- real-time label training
技术开发,维护成本高 开发成本高
AirBnB
2016
数据集成: EventLogs接Kafka, RDB接Sqoop 进HDFS S3集群
数据存储: S3, 主备两个集群 (gold, silver)
计算调度: Airflow
补充: Spark集群和Presto集群
数据应用: Airpal, Panoramix, Tableau
Airpal是一个Presto即席查询平台.