아파치 스파크는 통합 컴퓨팅 엔진 + 데이터를 병렬로 처리하는 라이브러리 집합 → 병렬 처리 오픈소스 엔진이다.
빅데이터를 위한 통합 컴퓨팅 엔진과 라이브러리 집합
데이터 읽기부터 sql, 스트리밍 , 머신러닝까지 다양한 작업을 일관성있는 API로 수행할 수 있도록 설계되어 있다.
이에 따라 “저장"보다는 “처리"에 집중
→ 이 점이 하둡 같은 기존 빅데이터 플랫폼과 차별화된 점
이에 따라 특정 저장소를 선호하지 않고 여러 저장소와 함께 사용 가능하다. 심지어 사용자 API는 서로 다른 저장소 시스템을 매우 유사하게 볼 수 있도록 만들어 졌다.
기존의 어플리케이션 성능은 자연스럽게 발생하는 프로세서 성능의 향상에 맡겨졌다.
그러나 어느순간 하드웨어 성능 향상이 멈추었다.