반응형
하둡에코시스템을 기반으로 데이터파이프라인을 구축할때
너무나 많은 오픈소스가 있어 어떤식으로 구축하는것이 일반적인지 추세를 알기위해 사례를 모아봤다.
데이터플랫폼 구축 사례
<요약>
Kafka Airflow Hive Spark Tableau Zeppelin 구축이 일반적이며
추가로 실시간 빅데이터 쿼리엔진으로 Presto를 추가하여 사용하는 추세이다.
더불어 Tableau를 대체할 무료 시각화툴로 Superset을 사용하는 경우가 있었다.
- 토스팀에 데이터가 흐르게 하는 데이터 플랫폼 팀을 만나다 - 하둡(Hadoop) 시스템과 Hive, Impala, Spark, kafka
- 쿠팡 데이터 플랫폼의 진화 - Kafaka, Airflow, Hive, presto, Tableau, Zeppelin, Hue
- LINE 광고 데이터 파이프라인 BigDB - Kafka, Spark, Zeppelin
- 루빅스(RUBICS) – kakao의 실시간 추천 시스템 - Kafka, Spark, Hive, Hbase
- 드라마앤컴퍼니 - S3, Airflow, Spark, Presto, Hive, Zeppelin, Superset
- Airbnb DATA infra - Kafka, Airflow, Spark, Presto, Tableau, Airpal
반응형
'BigData > Hadoop' 카테고리의 다른 글
Hadoop 2,3버전 port list 정리 (0) | 2021.10.05 |
---|---|
Hadoop single node install 설치 (0) | 2021.10.05 |
MapReduce? YARN? (0) | 2021.09.30 |
댓글