broadcast joins in apache spark | Notion

https://www.databricks.com/session_na20/on-improving-broadcast-joins-in-apache-spark-sql

스파크는 기본적으로 분산 시스템이다.
테이블(데이터)이 주어지면 각 노드에 분산돼서 저장된다.
이를 조인하려 할때, 비교적 적은 양의 테이블은 하나의 노드에 합칠수가 있다.
위의 그림처럼 하나의 노드에 작은 테이블들을 모두 합쳐준다.
그리고 조인을 진행하는 것이 broadcastjoin