데이터베이스(DB)랑 데이터 웨어하우스(DW), 대체 뭐가 달라??? 데이터 분석가를 희망하는 사람들이 가장 헷갈려하는 것 중 하나는 바로데이터베이스(DB)와 데이터 웨어하우스(DW)의 차이일 것입니다. 일반적으로 데이터 분석 프로젝트를 할 때는 단순히 local PC에 CSV파일 혹은 EXCEL 파일로 데이터를 저장하고, 이를 파이썬으로 불러와 분석하기 때문이죠. 저 역시 학부 수준의 프로젝트에서 아무리 큰 데이터를 다룬다고 하더라도대부분 몇 GB 밖에 차지하지 않을 뿐더러그저 '데이터를 분석하는 것'에 초점을 맞춰있기 떄문에'어떤 시스템을 사용해서 분석할 것인지'는 잘 고려하지 않게 되죠. 그렇다면 왜 데이터 분석가가 데이터를 분석할 시스템을 알아야 할까요??왜 DB와 DW에 대해서 알아야할까..
데이터 웨어하우스
Iceberg를 제외하고는 모두 SQL을 지원하는 빅데이터 기반의 데이터베이스! 1. AWS Redshift - 2012년에 시작된 AWS 기반의 데이터 웨어하우스 - 최대 2PB 까지의 데이터 처리 가능 - Postgresql의 기능 제공 및 Python으로 기능 확장 가능 - 초기에는 고정비용 모델이었으나, 가변비용 모델도 지원(Redshift Serverless) - 온디맨드 가격 외에도 약정 형태의 예약 옵션도 지원 - CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷 지원 * AWS의 일부이므로, AWS 내의 다른 서비스들과 연동이 쉬움 (S3, DynamoDB, SageMaker 등) - 배치 데이터 중심이지만 실시간 데이터 처리 지원 - 웹 콘솔, command 명령..