본문 바로가기
반응형

BigData/Hadoop4

Hadoop 2,3버전 port list 정리 하둡에서 사용하는 포트 리스트를 정리해보았다 Hadoop 2.X Hadoop 3.X 프로토콜 상세설명 관련 항목 Namenode 50470 9871 HTTPS dfs.https.address 50070 9870 HTTP HDFS 파일시스템 조회, 탐색 등 WEB UI dfs.http.address 8020/9000 9820/9000 IPC 파일 시스템 메타데이터 관련 작업용 fs.defaultFS Secondary NN 50091 9869 50090 9868 HTTP 네임노드 메타데이터 체크포인트 dfs.secondary.http.address Datanode 50020 9867 IPC dfs.datanode.ipc.address 50010 9866 데이터 전송 포트 dfs.datanode.address.. 2021. 10. 5.
Hadoop single node install 설치 Before Hadoop install 우분투 이미지 apt-get install curl -y 자바설치 apt-get install openjdk-8-jdk -y echo "export JAVA_HOME = /usr/lib/jvm/java-8-openjdk-amd64" >> /etc/profile source /etc/profile Hadoop Single node install apt-get install ssh -y apt-get install pdsh -y # --> 안해도 될듯 # Hadoop 다운 및 설치 wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz tar -xzf hadoop-3.3.1.tar.gz .. 2021. 10. 5.
MapReduce? YARN? MapReduce의 단점을 보완하고자 나온 리소스관리플랫폼 YARN(Yet Another Resource Negotiator) YARN은 기존 MapReduce 중에서 클러스터의 리소스를 관리하는 부분만 가져와서 다른 서비스에서도 사용 가능하도로 구성한 시스템 전통적인 MapReduce의 구성 전통적인 MapReduce시스템은 세가지로 분리가 가능하다. -- Mapper,Ruducer 등 클래스로 구성된 라이브러리 -- JobTracker, TaskTracker로 구성된 Runtime환경 Job Tracker는 하둡 클러스터에 있는 전체 Job의 스케줄링을 관리 및 모니터링하고 리소스를 관리한다. 마스터서버에서 동작. Task Tracker는 사용자가 설정한 맵리듀스 프로그램을 실행하며, 하둡의 데이터 .. 2021. 9. 30.
기업들의 데이터플랫폼 구축사례 하둡에코시스템을 기반으로 데이터파이프라인을 구축할때 너무나 많은 오픈소스가 있어 어떤식으로 구축하는것이 일반적인지 추세를 알기위해 사례를 모아봤다. 데이터플랫폼 구축 사례 Kafka Airflow Hive Spark Tableau Zeppelin 구축이 일반적이며 추가로 실시간 빅데이터 쿼리엔진으로 Presto를 추가하여 사용하는 추세이다. 더불어 Tableau를 대체할 무료 시각화툴로 Superset을 사용하는 경우가 있었다. 토스팀에 데이터가 흐르게 하는 데이터 플랫폼 팀을 만나다 - 하둡(Hadoop) 시스템과 Hive, Impala, Spark, kafka 쿠팡 데이터 플랫폼의 진화 - Kafaka, Airflow, Hive, presto, Tableau, Zeppelin, Hue LINE 광고 .. 2021. 9. 7.
반응형