공부 메모 | Notion

[참고자료]

MapReduce의 단점을 개선하기 위해 등장.

✅ MapReduce의 단점은 데이터 처리 단계 사이의 중간 데이터가 디스크에 잔류하는 것

✅ 그러나 Spark는 중간 데이터를 메모리에 둘 수 있어서, 데이터 재사용이 가능하고 이에 따라 반복형/대화형 테스크에 강점을 가진다.

Untitled (1).png

spark내부에서 일어나는 여러 작업들을 추상적으로 표현한 것.

작업을 클러스터에 고르게 '분산'하고 실패가 생겨도 '회복'할 수 있으며 사용자에게 '데이터세트'처럼 보인다.

즉 RDD는 "회복력을 가진 분산 데이터 집합"인 것. 키-값 정보를 저장하는 데이터 세트