데이터 청년 캠퍼스(2022)/배운 내용 정리

7.13(수) Colab 활용 - csv 파일 다루기

데욱 2022. 7. 14. 00:09

Colab 에서 구글 드라이브 마운트

 

연결 성공 시 Mounted at / content / drive 출력
팝업창이 뜨면 연결을 선택하자

 

  • 코랩 왼쪽의 파일 아이콘을 클릭 /content/drive/MyDrive/Colab Notebooks/

파일 확인

제공된 데이터 다운로드

 

공공데이터포털 (data.go.kr)

 

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr

행정안전부에서 운영하는 공공 데이터 제공 시스템

 

데이터 불러오기

구글 드라이브 - Colab Notebook 폴더 - 파일 업로드

업로드 파일이 있는지 확인 / 변수 path 설정
넘파이, 판다스 패키지 불러온 후, csv 파일 데이터 프레임 생성

 

데이터 비교를 위해 데이터 프레임 사본 생성

 

  • 원본 데이터와 비교가 필요한 경우 df_csv 불러와 비교

새로운 데이터 프레임 생성 / 시도명열과 시군구명 열을 합쳐 시도군구명이라는 새로운 열 생성
겹치는 row 삭제
부산광역시진구..?  데이터가 잘못 입력되어있다!

 

잘못된 데이터를 가공 진행

 

완전 일치하는 행만 찾음 / 문자열을 포함하는 값을 가진 행 찾기
시군구명에서 부산광역시진구 문자열과 일치하는 행만 새로운 DataFrame으로 분리
문자열에 있는 replace이기 때문에 부산광역시진구를 부산진구로 변경

 

새로운 데이터 프레임에 가공 완료된 데이터 프레임 데이터 업데이트

 

df_final 생성 후 데이터 update() / 0rows 를 확인하여 없어진 것을 확인
쓸모없는 index 생성을 막으면서 가공된 데이터프레임으로 csv파일 생성