Dask vs Apache Spark vs Pandas

Pandas DataFrame vs. Spark DataFrame: When Parallel Computing Matters

While the Pandas DataFrame has proven to be tremendously powerful in manipulating data, it does have its limits. With data growing at an exponentially rate, complex data processing becomes expensive to handle and causes performance degradation.

스크린샷 2022-12-20 오후 2.18.45.png

Difference between Pandas VS NumPy - GeeksforGeeks

https://velog.io/@kimdukbae/자료구조-트라이-Trie#:~:text=5%2F7-,트라이(Trie)란%3F,있는 자료구조라고 한다.

→ pygtrie : 파이썬에서 trie 자료구조를 수행하기 위해

스파크

분산처리/컬럼단위, 여러개의 워커로 분산되어서 컬럼단위 작업이 처리될때

데이터가 기가단위, 동일 포맷 데이터가 굉장히 많을때

하이브 메타스토어활용 면에서 I/O나 등등에서 유용하다

판다스

전체 데이터 1기가 미만, 레코드 수가 1억건 미만일때

지금 처럼 여러개의 형태를 스캔, 레코드 단위로 스캔할때