< 7주차 데이터 분석 과정 학습 및 시각화 실습 (2) >
1. 확률과 확률변수
통계학 : 여러 사건들을 수학적으로 모델링하고 이를 분석하는 것이 통계학의 본질.
- 사건은 근복적으로 발생하기 전에 알 수 없으므로 불확실성 내포
-> 이를 표현할 수단이 확률 (ex. 동전 던지기)
experiment: 동전을 던지는 행위
sample: 실험의 결과
sample space: 실험으로 발생하는 모든 sample의 집합
events: sample space의 부분집합. 어떤 조건을 만족하는 특정 표본점들의 집합
확률
: 실험을 실시했을 때 나올 수 있는 모든 경우의 수(sample space) 내에서 특정 사건이 발생하는 비율
- 사건 A가 발생할 확률은 [0, 1] 사이의 값을 가진다.
- Sample space 내 모든 사건의 확률의 합은 1이다.
변수
: 특정 조건에 따라 변하는 값
-> 확률변수는 '확률'에 따라 변하는 값
- 독립변수(x, feature) : 다른 변수에 영향을 받지 않는 변수
- 종속변수(y, label) : 독립변수의 영향을 받아 변화하는 변수
==> 독립변수로 종속변수가 어떻게 변화하는지 아는 것이 핵심
즉, 독립변수가 원인, 종속변수가 결과라는 가정이 필요하며, 두 변수간의 관계 파악이 중요
(correlation, regression, 대부분의 모델)
확률변수(Random Variable)
: 무작위 실험을 했을 때 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수
- 이산확률변수(Discrete random variable)
: 확률변수 X가 이산값(정수) 값을 택하는 변수
- 연속확률변수(Continous random variable)
: 확률변수 X가 어떤 구간의 모든 실수값을 택하는 변수
2. 확률분포
: 확률변수의 모든 값과 그 확률이 어떻게 분포하는지를 의미(Probability distribution)
확률함수
: 확률변수 x를 확률값에 대응시키는(연결시켜주는) 함수 P(x)
ex. P(X=1) = 0.5
즉, 확률변수와 확률함수를 이용해 sample space 내의 사건의 확률을 얻을 수 있음
sample space -> 확률변수 -> 실수공간 -> 확률함수 -> 확률
확률질량함수(pmf)
: Probability Mass Function, pmf
: 이산확률변수 X가 취할 수 있는 값(x0, x1, ...)에 대해서 확률값(P(X=x0), P(X=x1), ..)을 대응시켜주는
확률함수를 X의 확률질량함수 f(x)라고 함
- 모든 x에 대해 f(x) >= 0
- 모든 확률값의 합은 1
* 누적분포함수 : F(X) = P(X <= a) = ∑ f(x)
확률밀도함수(pdf)
: Probability Density Function, pdf
: 연속확률변수 X가 취할 수 있는 값의 범위 [a, b]에 대해서
확률값(P(a <= x <= b) = ∫f(x))을 대응시켜주는 확률함수를 X의 확률질량함수 f(x)라고 함
- 모든 x에 대해 f(x) >= 0
- 모든 확률값의 합은 1
* 누적분포함수 : F(A) = ∫f(x)
P(a<=x<=b) = F(b) - F(a)
- 연속확률변수의 확률은 범위의 면적.
확률밀도함수(pdf)로 곡선을 그리고 범위 내 곡선 아래의 면적을 구한다.
모집단
: 통계학에서 관심의 대상이 되는 모든 개체 값의 집합
ex. 대한민국의 모든 고등학생들의 키 값
모수
: Population parameter, Parameter
: 모집단의 특성을 나타내는 통계적인 특성치
ex. 정규분포에서 모수는 평균과 표준편자
-> 모수는 모집단을 모두 조사(전수검사) 해야 얻을 수있는 값이지만
이것이 어렵기 때문에 통계적 추론을 진행
* 통계적 추론: 표본의 특징을 분석하여 모수 추론
표본
: 전체 모집단에 대해서 샘플링을 통해 뽑히는 값.
: 모집단의 부분집합
* 통계적 추론 프로세스
: 모집단이 갖는 분포 가정 -> 샘플 추출(표본) -> 뽑힌 샘플을 통해 얻은 통계량의 성질을 이용해 모수 추청
=> 모수를 잘 추정하기 위해서는 표본 추출이 중요
-> 샘플이 뽑힐 가능성을 모두 동일하게, 무작위 추출
** i.i.d : 독립적(independent, 뽑힐 때 서로 영향X), 동일한 분포(identically distributed, 동일한 모집단에서 추출))
===> 이러한 iid를 따르는 샘플이 random sample임
확률분포
기댓값(Expected value)
: 어떤 확률적 사건이 평균적으로 가질 수 있는값 = 평균
E(X)
* E(X+Y) = E(X) + E(Y)
* E(aX+b) = aE(X) + b
* E(aX+bY) = aE(X) + bE(Y)
* 독립이면, E(XY) = E(X) + E(Y)
분산(Variance)
: 분포가 평균값으로부터 얼마나 산포되어있는지
: Var(X) = E(X^2) - {E(X)}^2,
* Var(X+Y) = Var(X) + Var(Y)
* Var(aX) = a^2Var(X)
* Var(aX+bY) = a^2Var(X) + b^2Var(Y)
결합확률분포
: Joint Probability Distribution
: 두 개의 확률변수 X, Y에 대해 P(X=x, Y=y) = f(x, y)를 만족하는
f(x, y)를 확률변수 X, Y의 결합확률분포 혹은 결합확률(질량/밀도)함수라고 함
공분산 (Covariance)
: 두 개의 확률변수 X와 Y에 대해서 X가 변할 때 Y가 변하는 정도는 나타내는 값
즉, X와 Y가 같이 변하는 정도를 나타내는 값.
: 편차 곱의 기댓값
Cov(X, Y) = E(XY) - E(X)E(Y)
* X와 Y가 독립이면 E(XY) = E(X)E(Y)
=> Cov(X, Y) = 0
베르누이 분포 (Bernoulli distribution)
베르누이 시행: 어떤 시행의 결과가 1 or 0인 실험
-> 베르누이 시행에서 확률변수 X=1일 확률이 p, X=0일 확률이 q=1-p인 경우
X는 베르누이 분포를 따른다.
pmf(확률질량함수)
E(X) = p
Var(X) = p(1-p)
이항 분포 (Binomial distribution)
: 베르누이 시행을 n번 반복했을 때 성공횟수를 값으로 갖는 확률변수 X에 대해
X는 이항확률변수라고 함
: 베르누이 시행 결과 성공일 확률이 p, 실패할 확률이 (1-p)일 때,
이 시행을 n번 반복했을 때 나타나는 확률분포를 이항분포라고 함
pmf(확률질량함수)
E(X) = np
Var(X) = np(1-p)
포아송분포(Poisson distribution)
: 포아송분포에서 모수(람다)는 '단위시간/단위공간에서의' 평균 발생횟수
ex. 1시간 동안 버스가 정류장에 도착하는 횟수
-> 단위시간/단위공간에서 어떤 사건이 발생하는 횟수를 확률변수 X라고 할 때, X는 포아송분포를 따름
(이산형, E(X) = 람다, Var(X) = 람다)
<전제조건>
- 독립성 : 단위 시간/공간에서 발생한 결과는 중복되지 않은 다른 시간/공간에서 발생한 결과와 독립
- 일정성 : 단위시간/공간에서 발생한 평균발생횟수는 일정
- 비집락성 : 매우 짧은 시간/공간에서 두 개 이상의 결과가 동시에 발생할 확률은 0
pmf
E(X) = 람다,
Var(X) = 람다
균등분포(Uniform distribution)
: 모든 확률변수값에 대해 균일한 확률을 갖는 확률분포
* 모든 확률의 합은 1
-> 구간 [a, b] 사이의 모든 확률의 합은 1
정규분포(Normal distribution, Gaussian distribution)
: 가장 일반적으로 발견되는 양방향 대칭의 종 모양 분포
수집된 자료의 분포를 근사할 때 대부분 정규분포 사용
-> 중심극한정리에 의해 독립적인 확률변수들의 평균이 정규분포에 가까워지므로
** 이항분포의 정규분포 근사
이항분포의 n을 무한대로 보낼 경우 정규분포를 따른다!
표준정규분포(Standard normal distribution)
: 서로 다른 parameter를 가진 집단들을 비교하기 위해 정규분포를 표준화한 분포
-> 평균이 0이고 표준편차가 1인 분포, z
* 표준화된 개별 데이터는 z-score라고 부르며, 평균으로부터 표준편차의 z배정도 떨어져있다를 의미
==> 표준정규분포표로 그 확률값이 정해져있음.
ex. P(-1.96 < Z < 1.96) = 0.95
표본평균, 표본분산
: 모집단으로부터 random sample을 n개 추출했을 때
n개의 random sample들의 평균과 분산을 각각 표본평균/표본분산 (iid를 따름)
<표본평균의 평균과 분산>
Bessel's correction
- 추정량(Estimate) : 모수를 추정하기 위한 표본통계량(표본평균, 표본분산 등)
- 불편향(Unbiased) : 표본 추정량의 기댓값이 모수와 같다. (표본평균의 평균은 모평균)
중심극한정리(Central Limit Theorem, CRT)
: 평균 μ와 분산 σ2인 임의의 모집단에서 크기가 n인 표본 (X1, ..., Xn)에 대해
표본평균의분포는n→∞일때(충분히 클 때) Z의 분포는 아래의 정규분포에 근사한다.
-> 표본평균 n이 커질수록 정규분포에 근사 (n은 표본의 평균임!)
'STUDY > DevCourse' 카테고리의 다른 글
[데브코스][데이터 분석] 데이터 시각화 (1) | 2024.04.03 |
---|---|
[데브코스][데이터 분석] 통계적 분석 기초 (2) - 기술통계, 가설검정 (0) | 2024.04.02 |
[데브코스][데이터 분석] 데이터 분석 들어가기 (0) | 2024.04.01 |
[데브코스][데이터 분석] Colab에서 Pandas 기초 (0) | 2024.03.25 |
[데브코스][데이터 분석] SQL 심화 (JOIN) (0) | 2024.03.22 |