Athena
S3에 저장되어 있는 unstructured, semi-structured, structure 데이터를 분석
CSV, JSON, columnar data formats (e.g. Apache Parquet, Apache ORC)
QuickSight와 통합하여 visualization에 사용됨.
Glue data catalog와 통합하여 테이블 생성/ 쿼리 실행 등을 수행
ad-hoc SQL 수행에 최적
serverless
EMR
분산 데이터 처리에 특화되어 단순/저렴한 서비스 제공
굉장히 flexible하다. (custom app/code 실행, specific compute, memory, storage 등을 설정)
machine learning, graph analytics, data transformation, streaming data 등의 다양한 대용량 데이터 처리 수행
사용자가 full control을 가짐
아주 큰 용량의 데이터를 Hadoop/Spark/Presto/Hbase 같은 대용량 데이터 처리 프레임워크로 처리/분석할 때 사용
Athena를 사용하여 EMR에서 처리하고 있는 데이터를 query할 수 있음(성능 영향 없이)
Redshift
다양한 sources에서 뽑아낸 데이터를 한번에 저장하기 좋은 데이터웨어하우스
inventory systems, financial systems, retail sales systems 같은 데이터
historical data에서 정교한 비즈니스 리포트를 작성하고자 할 때 탁월
다수의 대용량 테이블을 join하고 복잡한 query를 실항하고자 할 때 탁월
highly structured data를 저장하고 있는 많은 대용량 테이블에 다수의 join을 하고자 할 때 탁월
'개발 관련 이야기' 카테고리의 다른 글
Aparche Spark :: pyspark RDD를 이용하여 간단한 예제 풀어보기 (0) | 2022.09.12 |
---|---|
FaceNet 논문 리뷰 (0) | 2022.09.05 |
Base64 string -> cv2 이미지 변환 (0) | 2022.09.03 |
AWS ElastiCache Memcached vs. Redis (0) | 2022.09.02 |
AWS Kinesis Family 비교 (0) | 2022.09.01 |
댓글