데이터 청년 캠퍼스(2022)/배운 내용 정리 18

7.13(수) 데이터 전처리(1) [주피터 노트북 HTML 불러오기]

주피터 노트북에서 바로 불러왔다. 유용한 기능이지만... 앞으로는 안쓸것 같다.. 데이터 전처리 - 1¶ 넘파이, 판다스 패키지 사용 후 데이터 프레임 생성, columns 따로 설정¶ In [3]: import pandas as pd import numpy as np raw_data = { 'first_name': ['Jason', np.nan, 'Tina', 'Jake', 'Amy'], 'last_name': ['Miller', np.nan, 'Ali', 'Milner', 'Cooze'], 'age': [42, np.nan, 36, 24, 73], 'sex': ['m', np.nan, 'f', 'm', 'f'], 'preTestScore': [4, np.nan, np.nan, 2, 3], 'postT..

7.13(수) Colab 활용 - csv 파일 다루기

Colab 에서 구글 드라이브 마운트 코랩 왼쪽의 파일 아이콘을 클릭 /content/drive/MyDrive/Colab Notebooks/ 제공된 데이터 다운로드 공공데이터포털 (data.go.kr) 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr 행정안전부에서 운영하는 공공 데이터 제공 시스템 데이터 불러오기 구글 드라이브 - Colab Notebook 폴더 - 파일 업로드 데이터 비교를 위해 데이터 프레임 사본 생성 원본 데이터와 비교가 필요한 경우 df_csv 불러와 비교 잘못된 데이터를 가공 진행 새로운 데이..

7.12(화) Numpy (마무리 복습 2)

인덱싱 슬라이싱 배열 생성 함수 arange - range와 동일하지만 증가값에 실수형 사용가능 ones,zeros,empty - shape값을 사전에 넣어서 원하는 크기만큼 넘파이 배열을 생성 - ones: 1로만 구성, zeros: 0으로만 구성, empty: 값을 채우진 않고 활용 가능한 메모리 공간을 확보하여 반환 - _like 를 붙이면 기존 넘파이 배열가 같은 크기로 만들어 채움 (np.ones_like()) identity, eye, diag - identity: 단위행렬 생성 - eye: N은 행의 개수, M은 열의 개수, K는 열의 값 기준 시작 인덱스 지정 - diag: 대각행렬만 뽑아서 값을 관리 통계 분석 함수 넘파이 배열의 연산 비교연산자 넘파이 배열에 사용 시 부울 데이터 형태로..

7.11(월) 파이썬 기반 머신러닝 환경 구축하기

1. 미니콘다 설치 https://docs.conda.io/en/latest/miniconda.html Miniconda — Conda documentation Miniconda is a free minimal installer for conda. It is a small, bootstrap version of Anaconda that includes only conda, Python, the packages they depend on, and a small number of other useful packages, including pip, zlib and a few others. Use the conda in docs.conda.io 다운로드한 인스톨러를 실행하고 next버튼을 눌러가며, All Us..

7.5(화) - CSV 파일 분석 (2)

기온 데이터를 히스토그램으로 표현하기 기온 데이터를 상자 그림으로 표현하기 우리 동네 인구 구조 시작화 하기 인구 공공 데이터 내려받기 리스트.append(int(i)) 문자 데이터를 정수로 변환하기 시각화 막대그래프 그리기 bar()함수 - bar(막대를 표시할 위치, 막대의 높이) 수평 막대그래프 barh()함수를 활용 항아리 모양 그래프 그리기 혈액형 비율 표현하기 pie(): 비율 표현 axis('equal'): 동그란 원으로 표현 label = [''] pie(labels=label) : 레이블 추가 legend() pie autopct='%.1%%') : 비율 및 범례 표시하기 colors=color explode=(0,0,0.1,0): 색 및 돌출 효과 정하기

7.5(화) - CSV 파일 분석 (1)

공공 데이터 살펴보기 기상자료개방포털 홈페이지를 통해 기상 관련 데이터 수집 csv.reader(): CSV 파일에서 데이터를 읽어오는 함수 1. CSV 파일에서 데이터 읽어오기 seoul.csv 파일 읽어오기 2. 데이터 출력하기 seoul.csv 데이터 한 행(row)씩 읽어오기 3. 헤더 저장하기 next()함수를 활용해 헤더 저장하기 헤더를 제외한 데이터 한 행씩 출력하기 CSV파일을 확인하고 문제 해결 방법 구상하기 Q) 최고 기온과 최고 기온이었던 날짜 찾기를 찾으시오. 데이터 시각화하기 matplot 이용 날짜 데이터 추출하기 문자열을 분리하는 split() 함수 8월의 최고 기온 데이터 시각화하기

7.5(화) Colab / NumPy

Colab ( Colaboratory) 구글 리서치팀에서 개발한 제품 누구나 브라우저를 통해 임의의 python 코드를 작성하고 실행 무료로 제공하며 Jupyter와 차이가 크게 없음 자원이 무제한이 아님(더 빠른 처리를 원한다면 유료버전인 Colab Pro 사용 권장) Colab에서 주의해야 할 점 처리/ 네트워크 지연이 발생할 수 있음 자원이 무제한이 아님 메모장은 최대 12시간 실행할 수 있음 메모리 용량이 정해져 있지 않음 단축키 단축키 설정하면: Ctrl + M H 노트 저장: Ctrl + S 셀 추가: Ctrl + M A 셀 실행: Ctrl + Enter (Shift + Enter는 다음 셀로 이동) NumPY(Numerical Python) 파이썬에서 행렬을 효과적으로 이용하기 위한 외부 라..

7.4(월) Pandas

판다스(Pandas) 강력한 데이터 구조를 사용하여 고성능 데이터 조작 및 데이터 분석에 사용되는 오픈 소스 파이썬 라이브러리 판다스로 할 수 있는 작업 판다스로 CSV 파일이나 TSV 파일, 엑셀 파일 등을 열 수 있음 . mean()로 모든 열의 평균을 계산 가능 corr()로 데이터 프레임의 열 사이의 상관 관계를 계산 가능 조건을 사용하여 데이터를 필터링 가능 sor_values()로 데이터를 정렬 가능 groupby()를 이용하여 기준에 따라 몇 개의 그룹으로 데이터를 분할 가능 데이터의 누락 값을 확인 가능 타이타닉 CSV 예제 판다스 튜토리얼 웹페이지에서 다운로드 후 주피터 노트북에 업로드 describe(): 숫자 데이터에 대한 간략한 개요를 제공. 문자열 데이터는 처리하지 않음. 데이터 ..