데이터 웨어하우스

Snowflake를 사용하기 위해 SQL을 통해 기본 테이블을 만들어보자! SQL Worksheet 생성 본인의 권한을 "ACCOUNTADMIN"으로 설정된 것을 확인하고 위쪽의 Projects -> Worksheets를 눌러 들어간다. 이 후, 오른쪽 상단의 + 버튼을 눌러 "SQL Worksheet"을 선택하여 SQL을 사용할 수 있는 워크시트를 만들어보자. 기본 Worksheets 이름은 시간 정보를 바탕으로 생성된다. 원하는 워크시트 이름으로 적절하게 바꾸자! (필자는 Setup-Env 로 바꿈) 또한, 위쪽의 ACCOUNTADMIN은 현재 역할(Role)을 의미하며, COMPUTE_WH는 현재 사용하고 있는 컴퓨팅 리소스를 나타낸다. 이 워크시트를 공유하고 싶다면, Share 버튼을 누르면 된다..
데이터 웨어하우스의 한 종류인 Snowflake의 무료 체험판을 시작해보자! Snowflake 무료 체험판의 경우 30일동안 $400 상당의 크레딧을 이용할 수 있으며, 30일이 지나면 자동으로 계정이 정지된다. https://signup.snowflake.com/ Snowflake Trial signup.snowflake.com 1. 정보 입력 먼저, 홈페이지에 들어가 정보를 입력하고 "계속"을 누른다. 2. snowflake 에디션 설정 어떤 snowflake 에디션을 사용할 것인지 결정한다. -> 필자는 가장 저렴한 standard로 설정하였다. 또한, snowflake는 모든 클라우드 상에서 돌아가기 때문에, 어떤 클라우드를 사용할 것인지 선택한다. -> 필자는 AWS로 설정하였다. 3. 간단한 ..
Snowflake 특징 소개 - 2014년에 클라우드 기반 데이터웨어하우스로 시작됨 -> 지금은 데이터 클라우드라고 부를 수 있을 정도로 발전 - 글로벌 클라우드 위에서 모두 동작 (AWS, GCP, Azure) : 멀티클라우드 - 데이터 판매를 통한 매출을 가능하게 해주는 Data Sharing/Marketplace 제공 - ETL과 다양한 데이터 통합 기능 제공 - 스토리지와 컴퓨팅 인프라가 별도로 설정되는 가변 비용 모델 : Redshift 고정비용처럼 노드 수를 조정할 필요가 없고 distkey등의 최적화 불필요 - SQL 기반으로 빅데이터 저장, 처리, 분석을 가능하게 해줌 : 비구조화된 데이터 처리와 머신러닝 기능도 제공 - CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터..
Iceberg를 제외하고는 모두 SQL을 지원하는 빅데이터 기반의 데이터베이스! 1. AWS Redshift - 2012년에 시작된 AWS 기반의 데이터 웨어하우스 - 최대 2PB 까지의 데이터 처리 가능 - Postgresql의 기능 제공 및 Python으로 기능 확장 가능 - 초기에는 고정비용 모델이었으나, 가변비용 모델도 지원(Redshift Serverless) - 온디맨드 가격 외에도 약정 형태의 예약 옵션도 지원 - CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷 지원 * AWS의 일부이므로, AWS 내의 다른 서비스들과 연동이 쉬움 (S3, DynamoDB, SageMaker 등) - 배치 데이터 중심이지만 실시간 데이터 처리 지원 - 웹 콘솔, command 명령..
데이터 웨어하우스와 데이터 레이크와 ETL/ELT 데이터 웨어하우스 : 데이터 웨어하우스는 기본적으로 클라우드가 대세임. -> 데이터가 커져도 문제가 없는 확장가능성과 적정한 비용이 중요 포인트 - 고정비용 옵션 : AWS의 Redshift -> 매달 정해진 비용 부과 - 가변비용 옵션 : 구글의 BigQuery, Snowflake -> 사용한 만큼 부과 => 가변비용 옵션이 좀 더 확장가능한 옵션임. 처리할 수 있는 데이터의 크기가 크기 때문. : 오픈소스 기반(Presto, Hive)을 사용하는 경우도 클라우드 버전 존재 : 데이터가 작다면 굳이 빅데이터 기반 데이터베이스를 사용할 필요 없음 데이터 레이크 : SQL을 기반으로 데이터 처리를 하는 관계형 데이터베이스 : 스토리지에 가까움 -> 데이터 ..
_알파카
'데이터 웨어하우스' 카테고리의 글 목록