데이터 전처리 수집한 데이터를 바로 분석할 수 없기 때문에 데이터를 정제해야함 > 가장 오래걸리는 과정 데이터 분석을 시작하기 전, 분석 과정에서 오류를 일으킬 수 있는 요인을 미리 찾아야 함 - 결측값 - 잡음/ 이상값 결측값 - 데이터 값이 존재하지 않는 것을 의미한다. > 실수로 누락하거나 필요하지 않아서 없을 수 있음 완전 무작위 결측(MCAR) - 다른 변수와 무관하게 무작위로 발생 무작위 결측(MAR) - 결과 분포 자체에 영향을 미치지 않음 비무작위 결측(NMAR) - 결측값이 결과에 영향을 미치는 경우 결측값의 처리 삭제 - 특정 단일값 - 목록 대체 - 특정값 대체 (특정 대푯값으로 대체) - 다중 대치법 (통계 및 추정을 통해 새로운 데이터 셋을 대체) 잡음/ 이상값 둘 다 동일한 데이..