[참고자료]

https://hazel-developer.tistory.com/285

https://kils-log-of-develop.tistory.com/800?category=1064686

https://www.toptal.com/spark/introduction-to-apache-spark

https://whereisend.tistory.com/269

https://kils-log-of-develop.tistory.com/803?category=1064686

MapReduce의 단점을 개선하기 위해 등장.

✅ MapReduce의 단점은 데이터 처리 단계 사이의 중간 데이터가 디스크에 잔류하는 것

✅ 그러나 Spark는 중간 데이터를 메모리에 둘 수 있어서, 데이터 재사용이 가능하고 이에 따라 반복형/대화형 테스크에 강점을 가진다.

맵리듀스의 분산처리 방법

Untitled (1).png

RDD란?

spark내부에서 일어나는 여러 작업들을 추상적으로 표현한 것.

작업을 클러스터에 고르게 '분산'하고 실패가 생겨도 '회복'할 수 있으며 사용자에게 '데이터세트'처럼 보인다.

즉 RDD는 "회복력을 가진 분산 데이터 집합"인 것. 키-값 정보를 저장하는 데이터 세트