개요(2)
-
하이브 (Apache Hive) 1. 개요
시작하면서 하이브(hive)는 분산 환경에서 대용량 데이터를 읽거나 쓰고 관리하기 위해 개발된 데이터 웨어하우스 소프트웨어입니다. 그런데 대용량 데이터, 즉 빅데이터를 읽고 쓰는 것이 무엇이 그렇게 특별하며 또 웨어하우스는 무엇일까요? 그리고 왜 기업들은 하이브를 고집할까요. 이제 시작하겠습니다. 데이터 웨어하우스의 등장 사람들은 대부분 데이터베이스를 알고 있지만 데이터 웨어하우스는 생소할 것이에요. 참고한 Apache Hive Essentials - Dayong D. 책과 위키에 데이터베이스와 관련한 역사이야기가 나와서, 이해를 쉽게 돕기 위해 한번 공유해보겠습니다. 1960년대 1960년대 이전까지만 해도 기업들은 디스크에 데이터를 읽고 쓰는 것에 그쳤습니다. 사실 디스크라고도 뭐하지만 자기 테이프를..
2021.01.29 -
주키퍼 (Apache Zookeeper) 1. 개요
시작하면서 분산(distributed) 환경에서 동작하는 시스템은 어떻게 관리하고 감독해야 될까요? 가령 A, B, C 라는 컴퓨터가 동일한 잡을 수행하다, C가 말썽을 일으켰다고 할게요. 그럼 우리는 C에 방문해서 무엇이 문제인지 알아낼 수 있겠죠. 하지만 A0, A1, ..., A99 까지 100대의 컴퓨터가 있을 때는, 일일이 방문해가며 원인을 찾을 수 있을까요? 정답은 찾을 수 있지만 고통스럽다 입니다. 매번 할당되는 컴퓨터를 파악하는 것도 문제지만 일일이 어떻게 감독하고 고쳐나갈 지도 너무 힘들 것입니다. 즉, 우리는 실패에 대해 신속하고 정확하면서 범용성을 지닌 관리자 및 감독자가 필요합니다. 당연히 이들 또한 스스로의 결함에 대해 고칠 수단이 강력해야겠죠. 그리고 이러한 기능은 비단 결함 수..
2021.01.12