본문 바로가기
개발 관련 이야기

AWS Athena vs. EMR vs. Redshift 비교

by 꿈틀쓰 2022. 9. 4.

Athena

S3에 저장되어 있는 unstructured, semi-structured, structure 데이터를 분석

CSV, JSON, columnar data formats (e.g. Apache Parquet, Apache ORC)

QuickSight와 통합하여 visualization에 사용됨.

Glue data catalog와 통합하여 테이블 생성/ 쿼리 실행 등을 수행

ad-hoc SQL 수행에 최적

serverless

EMR

분산 데이터 처리에 특화되어 단순/저렴한 서비스 제공

굉장히 flexible하다. (custom app/code 실행, specific compute, memory, storage 등을 설정)

machine learning, graph analytics, data transformation, streaming data 등의 다양한 대용량 데이터 처리 수행

사용자가 full control을 가짐

아주 큰 용량의 데이터를 Hadoop/Spark/Presto/Hbase 같은 대용량 데이터 처리 프레임워크로 처리/분석할 때 사용

Athena를 사용하여 EMR에서 처리하고 있는 데이터를 query할 수 있음(성능 영향 없이)

Redshift

다양한 sources에서 뽑아낸 데이터를 한번에 저장하기 좋은 데이터웨어하우스

inventory systems, financial systems, retail sales systems 같은 데이터

historical data에서 정교한 비즈니스 리포트를 작성하고자 할 때 탁월

다수의 대용량 테이블을 join하고 복잡한 query를 실항하고자 할 때 탁월

highly structured data를 저장하고 있는 많은 대용량 테이블에 다수의 join을 하고자 할 때 탁월

댓글