본문 바로가기

Tech/Hadoop

(14)
망분리 환경에서 td-agent webhdfs 플러그인을 활용하여 HDFS에 로그 저장하기 이 글을 쓰게된 이유는 회사 업무로 망분리 환경에서 데이터 파이프라인을 구축하는 업무를 하게되었다. td-agent (fluentd 래핑된 프로그램)으로 Hadoop HDFS에 access log를 저장하는 데이터 파이프라인 구축 업무였고, 구축하는 과정에서 발생한 문제와 왜 발생했는지 해결 내용을 공유하기 위해 작성했다. 망분리 환경에서 td-agent(fluentd) HDFS 간 파이프라인 설정할 때, 도움이 되었으면한다.! 대충 환경은 이러했다. td-agent 서버(물리) HDFS (물리) 간에 방화벽 정책으로 인해 allow 정책이 있지 않는 상태이며, all deny 상태. 자.. 파이프라인을 구축하는 과정에서 어떤 문제가 있었는지 먼저 설명하겠다. fluentd의 webhdfs 외부 플러그인..
naver deview 영상 목록 2017년 Day2, 3-4. 멀티테넌트 하둡 클러스터 운영 경험기 NAVER Engineering tv.naver.com 2018년 C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터 NAVER Engineering | C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터 tv.naver.com Druid로 쉽고 빠르게 빅데이터 분석하기 NAVER Engineering | Druid로 쉽고 빠르게 빅데이터 분석하기 tv.naver.com 네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDB NAVER Engineering | 네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDB tv.naver.com 2019년 대용량 멀티테넌트 시큐어 하둡 클러스터를 시..
[Hadoop] hadoop 3.3.3 버전 docker로 설치하기 GitHub - kangprog/hadoop_cluster_tutorial: 하둡클러스터 튜토리얼 하둡클러스터 튜토리얼. Contribute to kangprog/hadoop_cluster_tutorial development by creating an account on GitHub. github.com 예전에 docker 형태로 구축했었던 hadoop을 가지고, 버전업데이트를 해보면서 hadoop 2.9.2 버전 → 3.3.3 버전 zookeeper 3.4.9 버전 → 3.8.0 버전 마주한 문제는 아래와 같다. zookeeper 설치 시 압축 파일명이 바꼈다. 3.4.9 버전에서는 zookeeper-$ZOOKEEPER_VERSION.tar.gz이였는데, 3.8.0 버전에서는 apache-zookee..
[Hadoop]Docker Base 하둡 설치기 (2) [Hadoop]Docker Base 하둡 설치기 (1) 하둡 완벽가이드를 읽다보니, 실제로 구축해보고 직접 보고 싶다는 마음이 생겼다. 로컬에서 간단하게 구성하고 어느 환경에서든 구동할 수 있도록 Docker를 기반으로 구축해보았다. 먼저 결론부 kangprog.tistory.com 이전에 start-all.sh를 실행하지 않고, /bin/hdfs를 통해 각 노드 실행하는 걸로 만들었었다. 흠....... 다시 처음부터 갈아 엎었다. 이유는... 1. HA를 구성하려고 하다보니 각 노드를 실행시키는 것보다는 마스터 노드에서 일괄적으로 실행시키는게 편리했고, 2. NN, DN 폴더구조를 가지고 각 hdfs-site.xml을 관리 하려고 했는데, RM, HIVE 등등 늘어나면서, 만드는 내가 햇갈렸다. 그래..
[Hadoop] Docker Data Node 추가, 삭제 GitHub - kangprog/hadoop_cluster_tutorial: 하둡클러스터 튜토리얼 하둡클러스터 튜토리얼. Contribute to kangprog/hadoop_cluster_tutorial development by creating an account on GitHub. github.com datanode의 용량이 꽉차는 경우, 추가해야하는 상황이 생길 것이다. datanode04를 한번 추가해본다. docker-compose.yml에서 datanode03 내용을 그대로 복사하여 datanode04로 만들어준다. (volume도 datanode04 만들어준다) 그 후, docker-compose -f docker-compose.yml up -d datanode04 datanode04가 붙..
[Hadoop]core-site.xml, hdfs-site.xml 내가 테스트 구축에 사용한 hdfs의 버전은 2.9.2 따라서, Documentation Version 또한 2.9.2로 확인한다. core-site.xml Documents https://hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-common/core-default.xml hdfs-site.xml Documents https://hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml Use core-site.xml from Base Image fs.defaultfs The name of the default file system. A URI whose sche..
[Hadoop]Docker Base 하둡 설치기 (1) 하둡 완벽가이드를 읽다보니, 실제로 구축해보고 직접 보고 싶다는 마음이 생겼다. 로컬에서 간단하게 구성하고 어느 환경에서든 구동할 수 있도록 Docker를 기반으로 구축해보았다. 먼저 결론부터 말하자면, centos7 베이스의 HDFS를 구축했다. 코드는 Git에 커밋중이고, HDFS 구성은 Release v1.0 이다.(아래 링크) (+추가: 가장 최신 master branch를 참고하면된다.) GitHub - kangprog/hadoop_cluster_tutorial: 하둡클러스터 튜토리얼 하둡클러스터 튜토리얼. Contribute to kangprog/hadoop_cluster_tutorial development by creating an account on GitHub. github.com 맨처..
[Hadoop]하둡 완벽가이드 요약 (7) 7장 7장은 맵리듀스 작동 방법을 설명한다. 맵리듀스 과정을 먼저 이해하기위해 7장을 먼저 요약한다. JobSubmitter 리소스 매니저에 맵리듀스 잡 ID로 사용될 새로운 어플리케이션 ID를 요청(위 사진에서 2번) 잡의 출력 명세를 확인. 출력 디렉토리가 지정되지 않거나, 이미 존재한다면 에러 전달. 잡의 입력 스플릿을 계산한다. 계산할 수 없을시 에러 전달. 잡 실행에 필요한 JAR 파일, 환경 설정파일, 계산된 입력 스플릿 등 잡 리소스를 공유 파일시스템에 있는 해당 잡 ID이름의 디렉터리에 복사한다. (위 사진에서 3번) 리소스 매니저의 submitApplication()을 호출하여 잡을 제출(위 사진에서 4번) 리소스 매니저가 submitApplication() 메서드의 호출을 받으면, YA..