판다스(Pandas)
- 강력한 데이터 구조를 사용하여 고성능 데이터 조작 및 데이터 분석에 사용되는 오픈 소스 파이썬 라이브러리
판다스로 할 수 있는 작업
- 판다스로 CSV 파일이나 TSV 파일, 엑셀 파일 등을 열 수 있음 .
- mean()로 모든 열의 평균을 계산 가능
- corr()로 데이터 프레임의 열 사이의 상관 관계를 계산 가능
- 조건을 사용하여 데이터를 필터링 가능
- sor_values()로 데이터를 정렬 가능
- groupby()를 이용하여 기준에 따라 몇 개의 그룹으로 데이터를 분할 가능
- 데이터의 누락 값을 확인 가능
타이타닉 CSV 예제
판다스 튜토리얼 웹페이지에서 다운로드 후 주피터 노트북에 업로드
describe(): 숫자 데이터에 대한 간략한 개요를 제공. 문자열 데이터는 처리하지 않음.
데이터 시리즈 생성하기
- 시리즈는 이름이 붙여진 1차원적인 배열이나 마찬가지임
- 가장 기본적인 방법은 파이썬의 리스트에서 생성하는 것임
데이터 프레임 생성하기
인덱스 변경
원하는 만큼의 행 보기
엑셀 파일로 저장하기
난수로 데이터 프레임 채우기
타이타닉 데이터 추출하기
카테고리 별로 그룹화된 통계
titanic[["Sex", "Age"]]에 의하여 이 두 열의 선택이 먼저 이루어진다. 다음으로, groupby() 메소드가 "Sex" 열에 적용되어 ”Sex" 값에 따라서 그룹을 만든다. 이어서 각 성별의 평균 연령이 계산되어 반환된다.
데이터로 차트 그리기
'데이터 청년 캠퍼스(2022) > 배운 내용 정리' 카테고리의 다른 글
7.5(화) - CSV 파일 분석 (1) (0) | 2022.07.05 |
---|---|
7.5(화) Colab / NumPy (0) | 2022.07.05 |
7.1(금) 파이썬 - MatPolt, NumPy (0) | 2022.07.03 |
6.30(목) CSS 3 (2) (0) | 2022.06.30 |
6.29(수) CSS 3 (0) | 2022.06.29 |