AWS EMR(Elastic MapReduce)

박수빈98 2025. 5. 14. 10:55

AWS에서 제공하는 빅데이터 처리 플랫폼

Hadoop, Spark 같은 오픈소스 분산 데이터 처리 프레임워크를 AWS 클라우드에서 쉽게 사용할 수 있게 해주는 서비스(로그 분석, ETL, 기계학습 전처리 등을 해줌)
자동화: 클러스터 생성, 확장, 축소, 종료 등을 자동으로 처리
S3, DynamoDB, RDS, Redshift, Data Catalog 등과 연동

여기서 MapReduce는 데이터를 분산해서 처리하는 방식을 말하는것

Map:데이터를 key-value 쌍으로 변환하는 것이고

Reduce: 같은 key에 대해 최종 집계 수행

Map	데이터를 쪼개서 (key, value)로 변환	("hello", 1)
Reduce	같은 key를 합쳐서 집계	("hello", [1,1]) → 2

Spark, Hive 같은 빅데이터 도구를 사용하기 위한 인프라는 뭔데 이걸 자동화해준다는거?

예: CSV → Parquet 변환, 자동화된 데이터 카탈로그, SQL 없이 GUI로 변환 처리

한 마디로 원시 데이터를 구조화된 데이터로 바꿔주는 역할

이렇게 전처리한 후 EMR로 한 번 더 전처리 하는 구조도 사용됨

S3, RDS, Redshift, DynamoDB 등 다양한 저장소에 있는 데이터를 “어디에 어떤 형식으로 어떤 스키마로 존재하는지” 정리해 둔 메타데이터 저장소

데이터의 데이터, 메타데이터가 저장되는 중앙 저장소

예)Glue에서 Data Catalog 자동화

CSV 파일만 덩그러니 있을 때 Glue Crawler가 실행되면 CSV의 스키마를 자동 추론함

그 후 Glue Data Catalog에 테이블 형태로 등록시켜줌

이렇게 구조화되었으면 다음 툴들이 분석하는게 훨씬 수월해짐

대용량 데이터를 분산 저장하고, 분산 처리할 수 있는 프레임워크

구성 요소	설명
HDFS (Hadoop Distributed File System)	데이터를 여러 대의 서버에 분산 저장
MapReduce	데이터를 분산 처리하는 방식 (처리 로직)
YARN (Yet Another Resource Negotiator)	자원 관리, 작업 스케줄링 담당

데이터를 분산 저장하고 가져와서 처리하는게 아닌 처리 로직인 MapReduce를 데이터 있는 곳으로 보냄

처리 속도는 빠르지 않지만, 안정성, 확장성이 매우 뛰어남

Hadoop보다 훨씬 빠른, 인메모리 기반의 분산 데이터 처리 프레임워크

인메모리 방식 특성 상 다운 시 데미지가 큼

변경하는 과정에서 다운되면 데이터가 꼬임

그렇기에 데이터를 불변으로 만듦(RDD)

그 후 변경 이력만 따로 저장하는 것

장애로 날라가도 불변 객체 가져와서 변경 이력으로 하던거 다시할 수 있음