728x90
<3주차 Excel을 활용한 다양한 데이터 분석 실습 (5) >
1. 결측치
: 0이 아닌 값 (언어 별로 다른 명칭을 가짐)
- NA : Not Available (유효하지 않음)
- NaN : Not a Number (숫자가 아님)
- Null : 아무것도 존재하지 않음
결측치가 발생하는 이유
: 실제로 값을 입력하지 않은 경우
: 설문조사 특정 질문에 미응답
: 데이터의 오류
등등
- 결측치는 데이터의 손실을 불러올 수 있음
- 결측치 대체에 따라 데이터에서 편향이 생길 수 있음
- 결측치 처리에 따라 분석결과가 매우 달라질 수 있음
2. 결측값 대체하기
1. 평균으로 대체하기
: 변수의 결측값을 평균값으로 대체
: 특정 정보가 존재하지 않을 경우 평균값이 가장 좋은 샘플이라는 논리에 기인
: 정보의 손실은 줄어들 수 있으나, 결측치에 대한 불확실성을 고려하지 못함
2. 완전제거하기
: 결측치가 포함된 값을 분석 대상에서 제거하기
: 분석에서 편향이 발생할 가능성이 적음
: 정보의 손실 및 검정력 약화 문제 야기 가능서 존재
3. 회귀대체법
: 회귀 방정식을 통해 결측값을 예측값으로 대체하는 방법
: 변수의 특성에 따라 회귀식을 구성해 예측력 향상을 꾀함
728x90
'STUDY > DevCourse' 카테고리의 다른 글
[데브코스][데이터 분석] SQL 여러 테이블 결합하여 사용하기 (0) | 2024.03.05 |
---|---|
[데브코스][데이터 분석] RDMS과 SQL 기초 문법 (0) | 2024.03.04 |
[데브코스][데이터 분석] Excel을 활용한 다양한 데이터 분석 실습 (3), (4) (1) | 2024.02.29 |
[데브코스][데이터 분석] Excel을 활용한 다양한 데이터 분석 실습 (1), (2) (0) | 2024.02.26 |
[데브코스][데이터 분석] 데이터 활용 시 고려할 점 (1) | 2024.02.23 |