Spark에서 join을 수행하는 경우는 크게 두 가지로 나눌 수 있다. (1) 큰 테이블과 작은 테이블을 조인 또는 (2) 큰 테이블과 큰 테이블을 조인. Spark은 join을 수행하기 위해 Sort Merge Join, Broadcast Join, Shuffle Hash Join 등의 방법을 제공한다.
sort merge join
, shuffle hash join
, broadcast join
, straggler
spark 조인 시에 나올 수 있느 ㄴ여러 내부적인 이슈 특히, 메모리 에러의 근본적인 원인을 파악하고 스파크 잡의 성능을 향상할 수 있다.