전체 글

안녕하세요, 데이터 분석가를 꿈꾸는 개인기록 블로그입니다:)
· 기타
우리는 여러가지 응용 프로그램을 설치한다. 예를 들어 MySQL을 설치하려할 때에도 이를 다른 OS에서 설치하려면 다양한 변수가 존재하게 된다. 또한, 같은 OS여도 기존에 설치되어 있는 소프트웨어들에 따라 충돌이 나는 등 설치 과정이 복잡해질 수 있다. 이때, 사용되는 것이 Docker이다. Docker란? Docker는 내가 실행하고 싶은 하나의 프로그램과 연관된 모든 소프트웨어를 패키지로 만들고, 이 패키지를 일종에 가상환경에서 실행하는 것이다. 즉, 특정 프로그램과 그 프로그램을 실행하는데 필요한 기타 소프트웨어들을 하나의 패키지로 만듦으로써 해당 프로그램의 개발과 사용을 도와주는 오픈소스 플랫폼이다. Docker Image : Docker Engine 위에서 실행시키는 파일 시스템으로, 단순히 ..
Superset은 Airbnb에서 시작된 오픈소스로, 현재 Airbnb의 전사 대시보드가 Superset이다. 또한, Dropbox에서도 데이터 Explore 대시보드로 슈퍼셋을 사용하고 있다. https://github.com/apache/superset GitHub - apache/superset: Apache Superset is a Data Visualization and Data Exploration Platform Apache Superset is a Data Visualization and Data Exploration Platform - apache/superset github.com 그렇다면 Superset이 무엇인지 제대로 살펴보자. Superset이란? Superset이란? 다양한 형..
데이터 분석 자료를 시각화하기 위한 다양한 툴들이 있다. 이러한 시각화 툴을 대시보드 혹은 BI(Business Intelligence) 툴 이라고 부른다. 시각화 툴 = 대시보드 = BI(Business Intelligence) 시각화 툴은 KPI, 지표, 중요한 데이터 포인트들을 데이터를 기반으로 계산/분석/표시해주는 툴이며, 데이터 기반 의사결정을 돕는 역할 및 데이터 분석을 쉽게 해주는 역할을 한다. 이러한 시각화 툴이 의미있으면, 데이터의 품질이 보장되어야 한다. 그렇다면, 시각화 툴에는 어떤 툴들이 존재할까? Excel, Google Spreadsheet : 사실상 가장 많이 쓰이는 시각화 툴 Python : 데이터 특성 분석(EDA: Exploratory Data Analysis)에 더 적합..
· 기타
핵심 성과 지표(KPI)란? 핵심 성과 지표(KPI, Key Performance Indicator)란 조직 내에서 달성하고자 하는 중요한 목표를 의미한다. 즉, 중요한 비즈니스 목표 대비 팀이나 조직의 진행 상태를 나타내는 정량적인 지표이며, 기업이 비즈니스 목표를 얼마나 잘 달성하고 있는지를 판단하기 위해 사용하는 수치화할 수 있는 척도를 의미한다. 보통 매출액 혹은 유료 회원의 수 등 정량적인 숫자가 선호되며, 명확한 정의가 굉장히 중요하다! 따라서 이에 따른 "지표 사전"도 필요하다. 또한, KPI의 수는 적을 수록 좋으며, 잘 정의된 KPI는 현재 상황을 명확하게 이해하고 더 발전된 계획이 가능하다는 장점이 있다. 게다가 KPI는 정량적이기에 시간에 따른 성과 추적도 가능하다. KPI를 설정하는..
Snowflake를 사용하기 위해 SQL을 통해 기본 테이블을 만들어보자! SQL Worksheet 생성 본인의 권한을 "ACCOUNTADMIN"으로 설정된 것을 확인하고 위쪽의 Projects -> Worksheets를 눌러 들어간다. 이 후, 오른쪽 상단의 + 버튼을 눌러 "SQL Worksheet"을 선택하여 SQL을 사용할 수 있는 워크시트를 만들어보자. 기본 Worksheets 이름은 시간 정보를 바탕으로 생성된다. 원하는 워크시트 이름으로 적절하게 바꾸자! (필자는 Setup-Env 로 바꿈) 또한, 위쪽의 ACCOUNTADMIN은 현재 역할(Role)을 의미하며, COMPUTE_WH는 현재 사용하고 있는 컴퓨팅 리소스를 나타낸다. 이 워크시트를 공유하고 싶다면, Share 버튼을 누르면 된다..
데이터 웨어하우스의 한 종류인 Snowflake의 무료 체험판을 시작해보자! Snowflake 무료 체험판의 경우 30일동안 $400 상당의 크레딧을 이용할 수 있으며, 30일이 지나면 자동으로 계정이 정지된다. https://signup.snowflake.com/ Snowflake Trial signup.snowflake.com 1. 정보 입력 먼저, 홈페이지에 들어가 정보를 입력하고 "계속"을 누른다. 2. snowflake 에디션 설정 어떤 snowflake 에디션을 사용할 것인지 결정한다. -> 필자는 가장 저렴한 standard로 설정하였다. 또한, snowflake는 모든 클라우드 상에서 돌아가기 때문에, 어떤 클라우드를 사용할 것인지 선택한다. -> 필자는 AWS로 설정하였다. 3. 간단한 ..
Snowflake 특징 소개 - 2014년에 클라우드 기반 데이터웨어하우스로 시작됨 -> 지금은 데이터 클라우드라고 부를 수 있을 정도로 발전 - 글로벌 클라우드 위에서 모두 동작 (AWS, GCP, Azure) : 멀티클라우드 - 데이터 판매를 통한 매출을 가능하게 해주는 Data Sharing/Marketplace 제공 - ETL과 다양한 데이터 통합 기능 제공 - 스토리지와 컴퓨팅 인프라가 별도로 설정되는 가변 비용 모델 : Redshift 고정비용처럼 노드 수를 조정할 필요가 없고 distkey등의 최적화 불필요 - SQL 기반으로 빅데이터 저장, 처리, 분석을 가능하게 해줌 : 비구조화된 데이터 처리와 머신러닝 기능도 제공 - CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터..
· 기타
Mac에서 아나콘다(anaconda)를 통해 Jupyter Notebook을 실행하려 했는데, 다음과 같이 나오면서 실행이 되지 않았다. 찾아보니 경로 오류 문제인듯하여 해결 방법을 적어보겠다. 환경 변수 설정에 문제가 있는듯하여 찾아보다 https://velog.io/@ji_o_ni/Mac-OS-%EC%95%84%EB%82%98%EC%BD%98%EB%8B%A4-Jupyter-Notebook-Lunch-%EA%B2%BD%EB%A1%9C-%EC%97%90%EB%9F%AC-%ED%95%B4%EA%B2%B0%ED%95%98%EA%B8%B0 위의 블로그를 통해 해결해보았다. 1. 라이브러리 업데이트 conda upgrade --all 2. 아나콘다 설치 경로 이동 2024년 3월 설치 기준, Mac에서 아나콘다..
Iceberg를 제외하고는 모두 SQL을 지원하는 빅데이터 기반의 데이터베이스! 1. AWS Redshift - 2012년에 시작된 AWS 기반의 데이터 웨어하우스 - 최대 2PB 까지의 데이터 처리 가능 - Postgresql의 기능 제공 및 Python으로 기능 확장 가능 - 초기에는 고정비용 모델이었으나, 가변비용 모델도 지원(Redshift Serverless) - 온디맨드 가격 외에도 약정 형태의 예약 옵션도 지원 - CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷 지원 * AWS의 일부이므로, AWS 내의 다른 서비스들과 연동이 쉬움 (S3, DynamoDB, SageMaker 등) - 배치 데이터 중심이지만 실시간 데이터 처리 지원 - 웹 콘솔, command 명령..
데이터 웨어하우스와 데이터 레이크와 ETL/ELT 데이터 웨어하우스 : 데이터 웨어하우스는 기본적으로 클라우드가 대세임. -> 데이터가 커져도 문제가 없는 확장가능성과 적정한 비용이 중요 포인트 - 고정비용 옵션 : AWS의 Redshift -> 매달 정해진 비용 부과 - 가변비용 옵션 : 구글의 BigQuery, Snowflake -> 사용한 만큼 부과 => 가변비용 옵션이 좀 더 확장가능한 옵션임. 처리할 수 있는 데이터의 크기가 크기 때문. : 오픈소스 기반(Presto, Hive)을 사용하는 경우도 클라우드 버전 존재 : 데이터가 작다면 굳이 빅데이터 기반 데이터베이스를 사용할 필요 없음 데이터 레이크 : SQL을 기반으로 데이터 처리를 하는 관계형 데이터베이스 : 스토리지에 가까움 -> 데이터 ..
_알파카
yeonnys' 개발일지