Naive Bayes : y를 우리가 분류하고자 하는 class, x는 input일 때, Naive Bayes는 X가 주어졌을 떄 feature 간의 conditional independent를 가정하고 posterior를 최대화하는 y를 예측값으로 결정 ## baseline code # Naive Bayes Classifier from sklearn.naive_bayes import GaussianNB gnb = GaussianNB() # training gnb.fit(X, y) # Naive Bayes Classifier evaluation y_pred = gnb.predict(X_test) regression 평가 방법 : 모델을 제대로 ..
STUDY
데이터 모델링이란? : 주어진 데이터에서 사용하고자 하는 x, 알고싶은 값 y에서 y=f(x)라는 함수로 x와 y 관계를 설명. - 이때, x를 독립변수(feature), y를 종속변수(label)이라고 부름 -> 이 y와 x의 관계를 효과적으로 설명하는 f(x) 함수를 만드는 일을 모델링이라고 함 - y 값이 존재하는 경우 supervised learning, -> y 값이 continuous(연속형) 값인 경우 regression task -> y 값이 categorical 값인 경우 classification task - y 값이 존재하지 않는 경우 unsupervised learning Bayes theorem의 관점에서 데이터 모델링 ..
시각화(Visualization) : 시각화는 데이터 분석 결과를 plot 이나 graph를 통해 시각적으로 전달할 수 있는 방법 -> 분석 내용 한 눈에 확인 가능, 통계 수치상으로 파악하기 쉽지 않은 내용 파악 가능(ex. 데이터 분포) matplotlib - 파이썬의 라이브러리. numpy나 pandas의 자료구조 시각화 가능 import matplotlib.pyplot as plt plt.plot() # 플롯 확인 가능 plt.show() # 파일 저장 # dpi=500 : 해상도 plt.savefig('filename', dpi=500) # 타이틀 지정 plt.title("xxx") # 축 label plt.xlabel("00", f..
3. 기술통계 정량적 데이터 분석이란? : 숫자로 표현되는 수치 데이터를 이용해 주어진 데이터를 분석 -> 통계 수치 이용 평균, 중앙값, 최빈값 -> 어느 값을 중심으로 뭉쳐있는지 분산, 표준편차, 분위수 -> 어떤 형태로 퍼져있는가 * 기술통계 함수들에서 ( skipna=False )로 설정 시 NaN 값이 있는 column은 NaN 값으로 출력됨 4. 가설검정 통계적 추청 : 모집단의 모수를 표본들의 통계값을 이용해서 추정하는 방법 - 점추정: 모집단의 특성을 단일한 값으로 추청 - 편향(Bias): 추정량의 기댓값과 모수의 차이 - 평균제곱오파(MSE): 편차 제곱에 대한 기댓값 최대우도 추정량(MLE, Mazimum likelihood..
1. 확률과 확률변수 통계학 : 여러 사건들을 수학적으로 모델링하고 이를 분석하는 것이 통계학의 본질. - 사건은 근복적으로 발생하기 전에 알 수 없으므로 불확실성 내포 -> 이를 표현할 수단이 확률 (ex. 동전 던지기) experiment: 동전을 던지는 행위 sample: 실험의 결과 sample space: 실험으로 발생하는 모든 sample의 집합 events: sample space의 부분집합. 어떤 조건을 만족하는 특정 표본점들의 집합 확률 : 실험을 실시했을 때 나올 수 있는 모든 경우의 수(sample space) 내에서 특정 사건이 발생하는 비율 - 사건 A가 발생할 확률은 [0, 1] 사이의 값을 가진다. - Sample s..
1. 데이터 분석을 해야하는 이유 FAANG(Facebook, Apple, Amazon, Netflix, Google) 중 애플을 제외한 모든 기업은 제조업이 아닌 서비스 기업임 -> 이들은 도대체 무엇을 판매하여서 돈을 벌었을까? ==> 데이터를 이용한 가치! * 아마존: 데이터 분석을 이용한 예측배송 서비스 구글, 페이스북: 데이터 분석을 이용한 온라인 광고 서비스 넷플릭스: 데이터 분석을 이용한 콘텐츠 추천 서비스 데이터 분석이란? - 데이터를 정리, 변환, 조작, 검사를 하여 인사이트를 만들어내는 작업 - 데이터 분석으로 무엇을 할 수 있는가? 왜 해야하는가? - 의사결정의 판단 기준이 주관적인 직감에서 객관적인 데이터로! => 주어진 ..
대부분 사용하는 버전은 Pandas 1.5.3임 -> 그러나, 현재 Pandas 2.0 버전이 나옴 => 1.5에서 2.0 버전으로 바뀌어가는 과도기임. 1. Colab에서 level 0에서 Pandas 따라하기 먼저, 온라인 환경인 Google Colab에서 실습을 해보자. -> 파일로 진행 한글 폰트 이슈 해결하기 - 로컬 # 한글 폰트 이슈 해결하기 - 로컬 import os import matplotlib.pyplot as plt # mac if os.name == "posix": plt.rc("font", family="AppleGothic") # window else: plt.rc("font", family="Malgun Gothic") 한글 폰..
1. JOIN이란? 두 개 혹은 그 이상의 테이블들을 공통 필드를 가지고 머지하는데 사용. 이는 스타스키마로 구성된 테이블들로 분산되어 있던 정보를 통합하는데 사용됨. 95%는 inner join과 left join으로 가능! -- JOIN 기본 문법 SELECT A.*, B.* FROM raw_data.table1 A ____ JOIN raw_data.table2 B ON A.key1 = B.key1 and A.key2 = B.key2 -- INNER, FULL, LEFT, RIGHT, CROSS WHERE A.ts >= '2019-01-01'; - 중복 레코드가 없고 Primary key의 유일..
1. GROUP BY와 AGGRECATE 함수 : 테이블의 레코드를 그룹핑하여 그룹별로 다양한 정보를 계산 1) 먼저 그룹핑을 할 필드 결정(하나 이상의 필드가 될 수 있음) -> GROUP BY로 지정 (필드 이름을 사용하거나 필드 일련번호를 사용) 2) 그룹별로 계산할 내용 결정 -> Aggregate 함수 사용 (COUNT, SUM, AVG, MIN, MAX, LISTAGG, ...) 월별 총 세션 수 -- 월별 세션수를 계산하는 SQL -- raw_data.session_timestamp를 사용 (sessionId와 ts 필드) SELECT LEFT(ts, 7) AS mon, COUNT(1)..
1. Redshift 론치 데모 : AWS 콘솔을 통해 Redshift를 론치해보자. (강사님이 만든 서버를 이용하여 실습 진행) AWS 홈페이지 -> 제품 -> 데이터베이스 -> Amazon Redshift 이동 2. 예제 테이블 소개 : 실습에 사용할 테이블 소개 사용자 ID : 보통 웹서비스에서는 등록된 사용자마다 부여하는 유일한 ID가 있음 세션 ID : 세션마다 부여되는 ID * 세션이란? : 사용자의 방문을 논리적인 단위로 나눈 것(크게 2가지 종류가 있음) - 사용자가외부링크(보통광고)를 타고 오거나 직접 방문해서 올 경우 세션을 생성 - 사용자가 방문 후 30분간 interaction..