데이터플랫폼 2

6.28(화) 데이터 플랫폼 이론(3)

데이터 전처리 수집한 데이터를 바로 분석할 수 없기 때문에 데이터를 정제해야함 > 가장 오래걸리는 과정 데이터 분석을 시작하기 전, 분석 과정에서 오류를 일으킬 수 있는 요인을 미리 찾아야 함 - 결측값 - 잡음/ 이상값 결측값 - 데이터 값이 존재하지 않는 것을 의미한다. > 실수로 누락하거나 필요하지 않아서 없을 수 있음 완전 무작위 결측(MCAR) - 다른 변수와 무관하게 무작위로 발생 무작위 결측(MAR) - 결과 분포 자체에 영향을 미치지 않음 비무작위 결측(NMAR) - 결측값이 결과에 영향을 미치는 경우 결측값의 처리 삭제 - 특정 단일값 - 목록 대체 - 특정값 대체 (특정 대푯값으로 대체) - 다중 대치법 (통계 및 추정을 통해 새로운 데이터 셋을 대체) 잡음/ 이상값 둘 다 동일한 데이..

6.27(월) 데이터 플랫폼 이론

데이터 플랫폼 이론 1) 데이터 플랫폼의 이해 Plat = form = Plaform 승장장을 예로 듦: 효율적으로 타고 내릴 수 있는 것 즉, 데이터의 수집/저장/처리/관리 및 분석 등의 역할 수행을 지원 빅데이터 관리 플랫폼 데이터 수집/저장/처리/관리 빅데이터 분석 플랫폼 데이터 분석 컴퓨터에서 플랫폼의 종류 하드웨어 플랫폼 (IBM / ARM) - 핵심 동작 부분들이 똑같이 동작하도록 함 운영체제 플랫폼 (iOS / Android) - 같은 운영체제 내에서는 쉽게 정보를 옮길 수 있음 - 단, 운영체제가 다르면 하드웨어도 다르기 때문에 설치는 가능하나 가용성이 낮아짐 소프트웨어 플랫폼 (MS Office / 한컴) 크로스 플랫폼 빅데이터와 데이터의 차이점 Volume(크기) Variety(다양성)..