데이터청년캠퍼스 5

7.5(화) - CSV 파일 분석 (2)

기온 데이터를 히스토그램으로 표현하기 기온 데이터를 상자 그림으로 표현하기 우리 동네 인구 구조 시작화 하기 인구 공공 데이터 내려받기 리스트.append(int(i)) 문자 데이터를 정수로 변환하기 시각화 막대그래프 그리기 bar()함수 - bar(막대를 표시할 위치, 막대의 높이) 수평 막대그래프 barh()함수를 활용 항아리 모양 그래프 그리기 혈액형 비율 표현하기 pie(): 비율 표현 axis('equal'): 동그란 원으로 표현 label = [''] pie(labels=label) : 레이블 추가 legend() pie autopct='%.1%%') : 비율 및 범례 표시하기 colors=color explode=(0,0,0.1,0): 색 및 돌출 효과 정하기

7.4(월) Pandas

판다스(Pandas) 강력한 데이터 구조를 사용하여 고성능 데이터 조작 및 데이터 분석에 사용되는 오픈 소스 파이썬 라이브러리 판다스로 할 수 있는 작업 판다스로 CSV 파일이나 TSV 파일, 엑셀 파일 등을 열 수 있음 . mean()로 모든 열의 평균을 계산 가능 corr()로 데이터 프레임의 열 사이의 상관 관계를 계산 가능 조건을 사용하여 데이터를 필터링 가능 sor_values()로 데이터를 정렬 가능 groupby()를 이용하여 기준에 따라 몇 개의 그룹으로 데이터를 분할 가능 데이터의 누락 값을 확인 가능 타이타닉 CSV 예제 판다스 튜토리얼 웹페이지에서 다운로드 후 주피터 노트북에 업로드 describe(): 숫자 데이터에 대한 간략한 개요를 제공. 문자열 데이터는 처리하지 않음. 데이터 ..

7.1(금) 파이썬 - MatPolt, NumPy

MatPlot 이란? GNUplot처럼 그래프를 그리는 라이브러리이다. MATLAB을 대신할 수 있다. MATLAB이 비싸고 상업용 제품인 반면에 MatPlot은 무료이고 오픈 소스이다. 직선 그래프 그리기 plt,plot(): 그래프 생성 plt.show(): 그래프를 볼 수 있도록 함 plt.xlabel("이름"): x행에 대한 주제명 추가 plt.ylabel("이름"): y행에 대한 주제명 추가 plt.plot(x,y label = "이름"): 해당되는 그래프명 설정 plt.legend(loc="위치"): 해당되는 위치에 그래프 탭 생성 plt.title("이름"): 전체적인 그래프명 생성 점선 그래프, 막대 그래프 생성 NumPy란? 행렬 계산을 위한 파이썬 라이브러리 모듈 처리 속도가 중요한 인..

6.28(화) 데이터 플랫폼 이론(3)

데이터 전처리 수집한 데이터를 바로 분석할 수 없기 때문에 데이터를 정제해야함 > 가장 오래걸리는 과정 데이터 분석을 시작하기 전, 분석 과정에서 오류를 일으킬 수 있는 요인을 미리 찾아야 함 - 결측값 - 잡음/ 이상값 결측값 - 데이터 값이 존재하지 않는 것을 의미한다. > 실수로 누락하거나 필요하지 않아서 없을 수 있음 완전 무작위 결측(MCAR) - 다른 변수와 무관하게 무작위로 발생 무작위 결측(MAR) - 결과 분포 자체에 영향을 미치지 않음 비무작위 결측(NMAR) - 결측값이 결과에 영향을 미치는 경우 결측값의 처리 삭제 - 특정 단일값 - 목록 대체 - 특정값 대체 (특정 대푯값으로 대체) - 다중 대치법 (통계 및 추정을 통해 새로운 데이터 셋을 대체) 잡음/ 이상값 둘 다 동일한 데이..

6.27(월) 데이터 플랫폼 이론

데이터 플랫폼 이론 1) 데이터 플랫폼의 이해 Plat = form = Plaform 승장장을 예로 듦: 효율적으로 타고 내릴 수 있는 것 즉, 데이터의 수집/저장/처리/관리 및 분석 등의 역할 수행을 지원 빅데이터 관리 플랫폼 데이터 수집/저장/처리/관리 빅데이터 분석 플랫폼 데이터 분석 컴퓨터에서 플랫폼의 종류 하드웨어 플랫폼 (IBM / ARM) - 핵심 동작 부분들이 똑같이 동작하도록 함 운영체제 플랫폼 (iOS / Android) - 같은 운영체제 내에서는 쉽게 정보를 옮길 수 있음 - 단, 운영체제가 다르면 하드웨어도 다르기 때문에 설치는 가능하나 가용성이 낮아짐 소프트웨어 플랫폼 (MS Office / 한컴) 크로스 플랫폼 빅데이터와 데이터의 차이점 Volume(크기) Variety(다양성)..