< 7주차 데이터 분석 과정 학습 및 시각화 실습 (2) >
3. 기술통계
정량적 데이터 분석이란?
: 숫자로 표현되는 수치 데이터를 이용해 주어진 데이터를 분석
-> 통계 수치 이용
평균, 중앙값, 최빈값 -> 어느 값을 중심으로 뭉쳐있는지
분산, 표준편차, 분위수 -> 어떤 형태로 퍼져있는가
* 기술통계 함수들에서 ( skipna=False )로 설정 시 NaN 값이 있는 column은 NaN 값으로 출력됨
4. 가설검정
통계적 추청
: 모집단의 모수를 표본들의 통계값을 이용해서 추정하는 방법
- 점추정: 모집단의 특성을 단일한 값으로 추청
- 편향(Bias): 추정량의 기댓값과 모수의 차이
- 평균제곱오파(MSE): 편차 제곱에 대한 기댓값
최대우도 추정량(MLE, Mazimum likelihood estimate)
* Likelihood function(우도함수): 확률변수의 결합확률밀도함수를 모수에 대한 함수로 볼 때, 이를 우도함수라고 함
X1, X2, .., Xn을 표본으로 얻을 확률, 즉 우도함수가 가장 높은 추정된 모수
-> 즉, MLE는 주어진 관찰값을 가장 잘설명하는 모수 추정량
구간추정(Interval estimation)
: 모수가 있을 것으로 예상되는 구간을 정해두고, 해당 구간에 실제 모수가 있을 것으로 예상되는 확률 구하기
* 점추정량은 추정된 값이 실제 모수와 얼마나 가까운지 알 수 없다.
- 신뢰도(Confidence level) : 설정한 구간에 실제로 모수가 있을 확률
ex. 확률구간 [a, b]에 대해 P(a<X<b) = 1-⍺일 때, 1-⍺를 신뢰도, (1-⍺)*100%는 신뢰구간
=> 카이제곱 분포, t분포, F분포 등으로 구간추정 가능
* t분포: 표준정규분포를 알기 위해서는 모분산을 알아야함.
그러나 현실적으로 불가능하기에 표본분산 사용. 이때, 정규분포 대신 t분포 이용(N<30)
* F분포: 정규분포를 이루는 모집단에서 독립적으로 추출한 표본들의 분산비율을 나타낼 때 F-분포 사용
모평균 구간추정
1) 모분산이 알려진 경우
2) 모분산을 모르는 경우(표본분산 이용)
모분산 구간추정
모비율 구간추정
가설검정
: 표본에서 얻은 사실을 근거로 하여 모집단에 대한 가설이 맞는지 통계적으로 검정하는 방법
* 가설을 먼저 세워야 함!
- 귀무가설(H0) : 직접 검정대상이 되는 가설. 귀각을 목표로 가설을 세움
- 대립가설(H1) : 귀무가설의 반대. 새로운 주장 혹은 실제 입증시키고 싶은 가설.
- 유의수준 : 귀무가설이 실제로 옮음에도 기각하는 오류
즉, 귀무가설이 실제로는 맞지만 틀리다고 할 수 있는 확률. 위험부담. 보통 0.05로 설정
- 임계값 : 유의수준이 주어졌을 때 귀무가설의 채택과 기각 의사를 결정하는 기준이 되는 값
- 제1종오류(type 1 error) : 귀무가설이 참임에도 이를 기각하는 오류
- 제2종오류(type 2 error) : 귀무가설이 거짓임에도 이를 채택하는 오류
==> 이들은 서로 상반되기 때문에 동시에 줄일 수없다.
다만, 표본의 크기를 증가시키면 분산이 작아지기 때문에 오류의 확률이 줄어든다.
단측검정
: 대립가설 H1이 어떤 특정값 이상/이하라고 설정되는 경우의 검정
-> 양쪽이 아닌 한쪽에 대해서만 영역을 찾음
양측검정
: 기각역이 양측에 존재
모평균 가설검정
: 모평균의 구간추정과 같이 모분산을 아는 경우와 모르는 경우로 나누어 생각
- 모분산을 아는 경우: Z 분포 이용
- 모분산을 모르는 경우: t분포 이용
ANOVA(analysis of variance, 분산분석)
: n개의 집단을 비교하는 통계적 분석
- n>2인 경우 n개의 집단에서 t검정을 하는 경우 문제 발생
ex. n개의 집단에서 한 번이라도 type 1 error가 발생할 확률에서 누적이 발생
-> 이를 해결하기 위해 ANOVA 사용
- 정규성: 모든 데이터가 정규분포를 따르는 모집단으로부터 추출 (아닐 경우 전처리 필요)
- 독립성: 모든 데이터가 모집단으로부터 독립적으로 추출
- 등분산성: 모든 데이터는 분산이 동일한 모집단들로부터 추출(가장 큰 분산과 가장 작은 분산비가 4:1을 넘지 않으면 ㄱㅊ_
일원 분산분석(One-way ANOVA)
: 집단의 종류(독립변수)가 하나이고 집단들이 가지는 평균값(종속 변수)이 하나인 경우
그 집단간 모평균의 차이의 여부를 검증하는 방법
'STUDY > DevCourse' 카테고리의 다른 글
[데브코스][데이터 분석] 회귀분석과 데이터 모델링 (1) (1) | 2024.04.05 |
---|---|
[데브코스][데이터 분석] 데이터 시각화 (1) | 2024.04.03 |
[데브코스][데이터 분석] 통계적 분석 기초 (1) - 확률, 확률분포 (0) | 2024.04.01 |
[데브코스][데이터 분석] 데이터 분석 들어가기 (0) | 2024.04.01 |
[데브코스][데이터 분석] Colab에서 Pandas 기초 (0) | 2024.03.25 |