아파치 스파크는 통합 컴퓨팅 엔진 + 데이터를 병렬로 처리하는 라이브러리 집합 → 병렬 처리 오픈소스 엔진이다.

KakaoTalk_Photo_2022-08-22-23-51-29.jpeg

1.1 아파치 스파크의 철학

빅데이터를 위한 통합 컴퓨팅 엔진과 라이브러리 집합

통합

데이터 읽기부터 sql, 스트리밍 , 머신러닝까지 다양한 작업을 일관성있는 API로 수행할 수 있도록 설계되어 있다.

컴퓨팅 엔진

이에 따라 “저장"보다는 “처리"에 집중

→ 이 점이 하둡 같은 기존 빅데이터 플랫폼과 차별화된 점

이에 따라 특정 저장소를 선호하지 않고 여러 저장소와 함께 사용 가능하다. 심지어 사용자 API는 서로 다른 저장소 시스템을 매우 유사하게 볼 수 있도록 만들어 졌다.

라이브러리

1.2 스파크의 등장 배경

기존의 어플리케이션 성능은 자연스럽게 발생하는 프로세서 성능의 향상에 맡겨졌다.

그러나 어느순간 하드웨어 성능 향상이 멈추었다.

1.3 스파크의 역사