[Apache Spark] 스파크의 셔플(Shuffle)에 대하여
Spark Performance Optimization Series: #3. Shuffle
Spark Optimization : Reducing Shuffle
To answer my questions you must do the arrangement to order cards of same packs together like the above image. That means you need to find all cards of same family one by one and them order then A to K or vice versa. This operation of moving cards(data) to seek and order is actually called Shuffle in big data world.
스파크에서 셔플은 일반적으로 데이터 그룹화 또는 집계와 같은 후속처리 단계를 준비하기 위해 클러스터의 노드 전체에 데이터를 재분배하는데 사용된다. 이때 데이터를 더 작은 청크로 분할하고 네트워크 전체에서 데이터를 섞은 다음 데이터를 새로운 청크 집합으로 다시 분할하는 작업이 포함된다.
셔플 작업은 스파크에서 가장 비용이 많이 드는 작업 중 하나이다.