하둡(4)
-
하둡 (Apache Hadoop) 4. Zookeeper로 HDFS의 고가용성(High Availability) 달성하기
시작하면서 이전에 HDFS를 설치한 포스트에서 저비용으로 높은 가용성을 가진다는 것을 설명했습니다. HDFS는 빅데이터를 위해 설계되었기 때문에 높은 처리량(high throughput)을 보장합니다. 따라서 당연히 그만큼 데이터 교환 시에 다양한 실패 상황이 있을 수 있고, 이를 위해 고가용성(high availiablity)을 달성하는 것은 당연합니다. 이번 포스팅은 주키퍼와 연동하여 HDFS의 고가용성을 달성하는 QJM(quorum journal manager) 방식이기 때문에 먼저 주키퍼에 대한 개요를 이해하고 있어야 하며 주키퍼 클러스터를 미리 설치해야 됩니다. 마지막으로 이전에 작성했던 글을 인용하여 가볍게 청사진을 그리고 시작하겠습니다. 활성화된 네임노드(active stated nameno..
2021.02.22 -
하둡 (Apache Hadoop) 3. YARN은 무엇일까?
시작하기 전 이전 포스팅에서는 하둡을 설치하는 방법에 대해 알아보았습니다. 이때 설정 파일 중 yarn-site.xml 파일을 건드렸었는데, 이는 YARN과 관련이 있습니다. 위처럼 YARN이 하둡 생태계에서 어떤 역할을 하는지, 이번 기회에 알아보는 시간을 가지도록 하겠습니다. 참고 작년 7월 경 Hadoop Common Jira에서 마스터/슬레이브의 용어에 대한 이슈가 있었지만, 아직 해결되지 않은 것 같습니다. https://issues.apache.org/jira/browse/HADOOP-17170 용어 정의가 변경될 때까지 마스터/세컨더리로 부르겠습니다. 등장 배경 하둡이 등장한 시점에, 사실 YARN은 포함되지 않았습니다. 그 당시 하둡은 크게 HDFS와 맵리듀스(MapReduce) 방식으로 ..
2021.02.22 -
하둡 (Apache Hadoop) 2. 하둡 완전 분산 모드 구현하기
시작하면서 저번 포스팅에서 HDFS는 3. 여러 개로 분산된 저장소를 하나의 파일 시스템처럼 사용하며 원격으로 접속할 수 있다. 고 했습니다. 이는 분산된 장치(하드웨어)의 여러 사용자가 하나의 파일 시스템을 공유하는 것과 마찬가지인데요. 이번 포스팅에서 하둡을 설치하면서, 위의 기능을 설명드리겠습니다. 설치 개요 하둡 공식 사이트를 방문하면, 총 3가지 모드의 설치법이 존재합니다. 싱글 노드 모드(Single node cluster mode) 의사 분산 모드(Pseudo-Distributed cluster mode) 완전 분산 모드(Fully-Distributed cluster mode) 싱글 모드 설치법부터 완전 분산 모드 설치법까지 공식 사이트에 나와있습니다. 하지만 여러분의 시간을 아껴주고, 제 ..
2021.01.07 -
하둡 (Apache Hadoop) 1. HDFS 개요
시작하면서 아파치(apache) 빅데이터 프로젝트 내 하둡 생태계(hadoop echosystem) 중 파일시스템(filesystem)입니다. HDFS는 단순히 하둡 분산 파일 시스템(Hadoop Distributed File System)을 줄여 부르는 말입니다. 이는 여러 개의 하드웨어(저장소)를 묶은 하나의 파일 시스템이라고 생각하면 됩니다. 실제 HDFS를 사용해보면 현실 속에서 저장소가 분산되었지만, 마치 하나의 파일 시스템을 쓰는 것과 같은 느낌을 받을 수 있습니다. 이를 하둡에서 개발했기 때문에 위와 같은 이름이 붙었습니다. The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on comm..
2021.01.06