Hive
블로그 정리
Study 정리
- 각 위치에 대한 메타데이터를 메타스토어에 저장하고, 드라이버에 데이터를 추적하는데 굉장히 유효
- 쿼리를 실행계획으로 변환하는 것이 HiveQL
- 파티션이 중요
- year, month, day / hour 파티션으로
- 파티션 안하면 부하가 너무 심해져서
- hdfs 저장할때 에어플로우 스케쥴링으로 데이터 적재할때 파티션으로 디렉토리 만들면서 적재하고 있음.
- thrift server : 쓰리프트 서버로 만들어진 서버, 다른 외부 언어 서버와 통신할 수 있다.
- 하이브 메타스토어 중요 : 임팔라가 사용하는 메타스토어다. 임팔라는 본인 자체 메타데이터는 없지만 하이브 메타스토어를 이용
- 프레스토가 발전된 버전인 trino에 glue를 붙일때도 쓰리프트 서버 사용 / hive 사용
- 네이버 법률 관련 전체 플랫폼을 만들었는데 이 내부가 전부 하이브로 쿼리 엔진 하도록 되어있다.
- RDBMS에서 스쿱으로 정말 퍼서 하둡으로 옮겨 넣어줌