데이터 청년 캠퍼스(2022)/배운 내용 정리

7.4(월) Pandas

데욱 2022. 7. 4. 23:08

판다스(Pandas)

 

  • 강력한 데이터 구조를 사용하여 고성능 데이터 조작 및 데이터 분석에 사용되는 오픈 소스 파이썬 라이브러리

 

판다스로 할 수 있는 작업

 

  1. 판다스로 CSV 파일이나 TSV 파일, 엑셀 파일 등을 열 수 있음 .
  2. mean()로 모든 열의 평균을 계산 가능
  3. corr()로 데이터 프레임의 열 사이의 상관 관계를 계산 가능
  4. 조건을 사용하여 데이터를 필터링 가능
  5. sor_values()로 데이터를 정렬 가능
  6. groupby()를 이용하여 기준에 따라 몇 개의 그룹으로 데이터를 분할 가능
  7. 데이터의 누락 값을 확인 가능

 

 타이타닉 CSV 예제

 

 

판다스 튜토리얼 웹페이지에서 다운로드 후 주피터 노트북에 업로드

 

판다스 실행을 위한 import
타이타닉 불러오기
'Age' 데이터열만 뽑기
max()를 이용한 최고령자 나이 추출

 

describe(): 숫자 데이터에 대한 간략한 개요를 제공. 문자열 데이터는 처리하지 않음.

 

타이타닉 승객 데이터에 대한 기본 통계 파악

 

데이터 시리즈 생성하기

 

  • 시리즈는 이름이 붙여진 1차원적인 배열이나 마찬가지임
  • 가장 기본적인 방법은 파이썬의 리스트에서 생성하는 것임

 

데이터 시리즈 생성

 

데이터 프레임 생성하기

 

2차원 데이터 프레임 생성
index 매개변수를 이용해 인덱스 설정

 

인덱스 변경

 

첫 번째 열을 index 객체로 사용

 

원하는 만큼의 행 보기

 

5개의 행 불러오기

 

엑셀 파일로 저장하기

 

위: 저장 / 아래: 불러오기

 

난수로 데이터 프레임 채우기

 

list('ABCD')

 

타이타닉 데이터 추출하기

 

승객들의 나이만 추출
이름, 나이, 성별을 동시에 추출
20세 미만의 승객만 추리기(필터링)
1,2등급의 승객들만 추출
df. loc[조건,열테이블] 사용, 20세 미만 승객 이름에만 관심
원하는 구역 인덱싱
데이터 정렬 sort_values()
내림차순 정렬 ,ascending = False
평균과 중앙값 구하기
각 등급의 수 value_counts()

카테고리 별로 그룹화된 통계

 

 

titanic[["Sex", "Age"]]에 의하여 이 두 열의 선택이 먼저 이루어진다. 다음으로, groupby() 메소드가 "Sex" 열에 적용되어 ”Sex" 값에 따라서 그룹을 만든다. 이어서 각 성별의 평균 연령이 계산되어 반환된다.

 

성별 및 승객 등급 조합의 평균 탑승권 요금

 

데이터로 차트 그리기

 

데이터 프레임 생성
중첩 차트 그리기
막대 그래프 그리기
산포도 그리기
그룹핑 하여 그리기
히스토그램 그리기

'데이터 청년 캠퍼스(2022) > 배운 내용 정리' 카테고리의 다른 글

7.5(화) - CSV 파일 분석 (1)  (0) 2022.07.05
7.5(화) Colab / NumPy  (0) 2022.07.05
7.1(금) 파이썬 - MatPolt, NumPy  (0) 2022.07.03
6.30(목) CSS 3 (2)  (0) 2022.06.30
6.29(수) CSS 3  (0) 2022.06.29