[참고자료]
https://hazel-developer.tistory.com/285
https://kils-log-of-develop.tistory.com/800?category=1064686
https://www.toptal.com/spark/introduction-to-apache-spark
https://whereisend.tistory.com/269
https://kils-log-of-develop.tistory.com/803?category=1064686
MapReduce의 단점을 개선하기 위해 등장.
✅ MapReduce의 단점은 데이터 처리 단계 사이의 중간 데이터가 디스크에 잔류하는 것
✅ 그러나 Spark는 중간 데이터를 메모리에 둘 수 있어서, 데이터 재사용이 가능하고 이에 따라 반복형/대화형 테스크에 강점을 가진다.
spark내부에서 일어나는 여러 작업들을 추상적으로 표현한 것.
작업을 클러스터에 고르게 '분산'하고 실패가 생겨도 '회복'할 수 있으며 사용자에게 '데이터세트'처럼 보인다.
즉 RDD는 "회복력을 가진 분산 데이터 집합"인 것. 키-값 정보를 저장하는 데이터 세트