본문 바로가기

Tech/Hadoop

[Hadoop]하둡 완벽가이드 요약 (1)

책을 읽으며, 각 장마다 요약하고 기록하려 한다.

 

하둡 완벽 가이드 - YES24

★ 곁에 두고 찾아보는 하둡 최고의 바이블 개정 4판 전격 출간! 하둡 프로젝트의 커미터이자 핵심 설계자인 톰 화이트가 집필한 이 책은 하둡 창시자인 더그 커팅을 비롯한 프로젝트별 전문가

www.yes24.com


1장


맵 리듀스는 기본적으로 일괄처리 시스템이다. 따라서, 대화형 분석에는 적합하지 않다.

실행 후, 수 초 이내에 결과를 받는 것은 불가능하다.

 

HBase는 HDFS를 기본 저장소로 Key-Value 저장소이다.

개별 행에 대한 읽기/쓰기, 데이터 읽기/쓰기 일괄처리를 지원한다.

 

YARN은 클로스터 자원관리 시스템이다.

맵리듀스뿐만이 아닌, 다른 분산 프로그램도 하둡 클러스터에서 저장된 데이터를 처리하게 해준다.

 

RDBMS와 맵리듀스의 차이?

  1. 용도 차이RDBMS는 지속적으로 변경되는 데이터 셋에 적합.
  2. 맵리듀스는 데이터를 한번 쓰고 여러번 읽는 어플리케이션에 적합.
  3. 데이터 처리 차이하둡은 반정형, 비정형와 같이 스키마가 유연한 데이터를 처리하는데 좋다. 이유는 처리 시점에서 데이터를 해석하도록 설계되어 있기 때문이다.
  4. RDBMS는 정형 데이터와 같이 특정 스키마를 가진 데이터를 처리하는데 구조화되어있다.

하둡은 가능하면 계산노드에 데이터를 함께 배치한다. 네트워크 비용을 없애서 데이터 접근속도를 빠르게한다. 이를 데이터 지역성이라 한다.

 

맵리듀스와 같은 분산처리 프레임워크는 실패한 테스크를 자동으로 감지하고, 장애가 없는 머신에서 다치 배치하도록 구현이 되어있다. 가능한 이유는 맵리듀스가 테스크간 상호 의존성이 없는 비공유아키텍처 이기 때문이다.

반응형

'Tech > Hadoop' 카테고리의 다른 글

[Hadoop]하둡 완벽가이드 요약 (4)  (0) 2022.03.06
[Hadoop]하둡 완벽가이드 요약 (3)  (0) 2022.03.05
[Hadoop]하둡 완벽가이드 요약 (2)  (0) 2022.03.03
[Hadoop]hadoop (2)  (0) 2022.02.27
[Hadoop]hadoop (1)  (0) 2022.02.26