Hive란?

분산스토리지 내의 데이터를 sql쿼리로 분석/처리 할 수 있는 쿼리언어

피그 등의 다른 기술들은 작업은 쿼리처럼 작업하더라도 내부는 MR로 이루어져 있어서 실질적인 작동 방식은 MR인데 hive는 sql쿼리 엔진자체이다.

Hive의 장점(사용하는 이유)

일단 가장 큰게 MR이랑 달리 사람들의 사용성이 좋다는 장점말고 뭐가 있지?

내부적인 리소스나 활용 면에서…

sql쿼리로 작업할 수 있으니 당연히 작업 속도면에서 효율적일터

  1. 우선 구조화된 쿼리언어
  2. OLAP쿼리
  3. extensible
  4. 가장 큰 특징으로는 메타스토어라는 것이 존재하는데, 하이브는 기존의 RDB와는 다르게 미리 스키마를 정의하고 그 틀에 맞게 데이터를 입력하는 것이 아닌, 데이터를 저장하고 거기에 스키마를 입히는(메타스토어에 입력하는) 것이 가장 큰 특징
  5. Tez엔진을 사용함으로써 MR보다 속도 더 빠르게 활용할 수 있음

Hive의 단점