본문 바로가기

All

(147)
[Hadoop] Docker Data Node 추가, 삭제 GitHub - kangprog/hadoop_cluster_tutorial: 하둡클러스터 튜토리얼 하둡클러스터 튜토리얼. Contribute to kangprog/hadoop_cluster_tutorial development by creating an account on GitHub. github.com datanode의 용량이 꽉차는 경우, 추가해야하는 상황이 생길 것이다. datanode04를 한번 추가해본다. docker-compose.yml에서 datanode03 내용을 그대로 복사하여 datanode04로 만들어준다. (volume도 datanode04 만들어준다) 그 후, docker-compose -f docker-compose.yml up -d datanode04 datanode04가 붙..
[Hadoop]core-site.xml, hdfs-site.xml 내가 테스트 구축에 사용한 hdfs의 버전은 2.9.2 따라서, Documentation Version 또한 2.9.2로 확인한다. core-site.xml Documents https://hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-common/core-default.xml hdfs-site.xml Documents https://hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml Use core-site.xml from Base Image fs.defaultfs The name of the default file system. A URI whose sche..
[Hadoop]Docker Base 하둡 설치기 (1) 하둡 완벽가이드를 읽다보니, 실제로 구축해보고 직접 보고 싶다는 마음이 생겼다. 로컬에서 간단하게 구성하고 어느 환경에서든 구동할 수 있도록 Docker를 기반으로 구축해보았다. 먼저 결론부터 말하자면, centos7 베이스의 HDFS를 구축했다. 코드는 Git에 커밋중이고, HDFS 구성은 Release v1.0 이다.(아래 링크) (+추가: 가장 최신 master branch를 참고하면된다.) GitHub - kangprog/hadoop_cluster_tutorial: 하둡클러스터 튜토리얼 하둡클러스터 튜토리얼. Contribute to kangprog/hadoop_cluster_tutorial development by creating an account on GitHub. github.com 맨처..
[Docker]docker compose Extension fields Docker-compose version 3.4 부터 생긴 포맷라고 한다. Compose file version 3 reference docs.docker.com 선언은 파일의 맨 위에 선언해야 하며, 접두어로 x-를 붙여줘야한다. 선언시 &를 사용하고, 호출 시에는 *를 사용한다. 예시는 아래와 같다. (HDFS 구축 docker-compose 파일 중 일부) version: "3.4" # 이미지와 네트워크 정보에 대한 base service를 지정 x-datanode_base: &datanode_base image: hadoop-datanode:2.9.2 networks: - bridge services: datanode01:
[Hadoop]하둡 완벽가이드 요약 (7) 7장 7장은 맵리듀스 작동 방법을 설명한다. 맵리듀스 과정을 먼저 이해하기위해 7장을 먼저 요약한다. JobSubmitter 리소스 매니저에 맵리듀스 잡 ID로 사용될 새로운 어플리케이션 ID를 요청(위 사진에서 2번) 잡의 출력 명세를 확인. 출력 디렉토리가 지정되지 않거나, 이미 존재한다면 에러 전달. 잡의 입력 스플릿을 계산한다. 계산할 수 없을시 에러 전달. 잡 실행에 필요한 JAR 파일, 환경 설정파일, 계산된 입력 스플릿 등 잡 리소스를 공유 파일시스템에 있는 해당 잡 ID이름의 디렉터리에 복사한다. (위 사진에서 3번) 리소스 매니저의 submitApplication()을 호출하여 잡을 제출(위 사진에서 4번) 리소스 매니저가 submitApplication() 메서드의 호출을 받으면, YA..
[Hadoop]하둡 완벽가이드 요약 (4) 4장 4장은 YARN에 대해서 설명한다. YARN은 하둡 클러스터 자원관리 시스템이다. 하둡 맵리듀스의 성능을 높이기 위해 도입되었으나, 다른 분산 컴퓨팅 도구도 지원한다. YARN은 리소스매니저와 노드매니저 두 가지 실행 데몬을 통해 서비스를 제공한다. 리소스 매니저는 유일하다. 클러스터 전체 자원 사용량을 관리 노드 매니저는 컨테이너를 구동하고 모니터링 하는 역할 YARN 동작 순서 클라이언트는 리소스매니저에게 어플리케이션 마스터 프로세스 구동을 요청한다. 리소스매니저는 노드매니저를 하나 찾는다. 노드매니저는 어플리케이션을 실행하고(컨테이너) 결과 값을 클라이언트에게 반환한다. 분산처리가 필요할 경우에는 리소스매니저에게 더많은 컨테이너 요청을 하는 경우도 있다. 어플리케이션 수명 사용자의 잡 당 하나..
[Hadoop]하둡 완벽가이드 요약 (3) 3장 요약 HDFS 장단점 큰 사이즈의 파일을 저장한다 데이터 처리 패턴은 한번 쓰고 여러번 읽는 것. 데이터 셋은 생성되거나 복사된다. 데이터 접근에 빠른 응답 시간을 요구하는 어플리케이션은 적합하지 않다. 빠른 응답을 원한다면 HBase를 대안으로 활용하면된다. 한번쓰고 끝나거나, 덧붙이는 것은 가능하지만, 다중 라이터에 적합하지 않다.(하둡 3.0 부터는 지원) 요약 기본적인 블록크기는 128MB이다. 실질적으로 저장되는 데이터의 크기가 128MB이하라면, 해당 데이터의 사이즈만큼만 사용한다. 기본 블록 크기가 128MB인 이유는? 탐색 비용을 최소화 보통 블럭을 여러 노드에 나누어 저장한다(replica). 블럭이 손상되면, 다른 복사본이 있는 노드에서 복제하여 사용한다. hdfs fsck / -..
[Hadoop]하둡 완벽가이드 요약 (2) 2장 2장은 맵리듀스에 대한 설명을 한다. 20세기(1900~2000년도) 전 세계 날씨 데이터(약 407GB)를 가지고 해당 장에서 설명한다. Data Access | National Centers for Environmental Information (NCEI) Free access to NCEI's archive of global coastal, oceanographic, geophysical, climate and historical weather data. These data include quality controlled daily, monthly, seasonal, and yearly measurements of temperature, precipitation, wind, degree day..