공부/판다스 데이터분석

[ Pandas ] 외부 파일 읽어오기(CSV, EXCEL, JSON)

haena02 2023. 1. 19. 21:43
반응형

판다스는 다양한 형태의 외부파일을 읽어와서 데이터 프레임으로 변환할 수 있다. 

file format Reader Writer
CSV read_csv to_csv
JSON read_json to_json
HTML read_html to_html
Local clipboard read_clipboard to_clipboard
MS Excel read_excel to_excel
HDF5 Format read_hdf to_hdf
SQL read_sql to_sql

 

 

1. CSV파일

 

데이터 값을 쉼표로 구분한다는 의미로 comma-separated values 를 줄여 CSV라고 부른다. 

쉼표로 열을 구분하고 줄바꿈으로 행을 구분한다.

pandas.read_csv("파일경로")

인자로 여러 옵션들을 전달 할 수도 있다. 

 

이런 옵션들은 다른 파일을 다룰 때도 거의 똑같으니 잘 봐두자!

 

path 파일의 위치, 파일명, URL
sep (delimiter) 텍스트 데이터를 구별하는 문자 (default=',')
header 열 이름으로 사용할 행의 번호 (default=0), None도 가능
index_col 열 이름으로 사용할 행의 번호 (default=None)
names 열 이름으로 사용할 문자열의 리스트
skiprows 처음 몇 줄을 skip할 건지 숫자 입력, 행번호 리스트도 가능
parse_dates 날짜 텍스트를 datetime64로 변환할건지 (default-False)
skip_footer 마지막 몇 줄을 skip할 건지 숫자 입력
encoding 텍스트 인코딩 종류를 지정

 

2. Excel 파일

 

엑셀파일의 행과 열은 데이터 프레임의 행과 열로 일대일 대응이 된다. 

Csv에서 나온 옵션들을 그대로 사용할 수 있다. 

 

아나콘다 배포판을 사용하지 않는 경우 오류메세지가 뜰 수 있는데 이는 엑셀 파일 데이터 추출을 지원하는 xlrd 라이브러리를 설치해야한다. 

 

3. JSON 파일

 

JSON파일은 데이터 공유를 목적으로 개발된 특수한 파일 형식이다. 

파일썬 딕셔너리와 비슷하게 key와 value구조를 갖는다.

key들이 열의 상단으로 가게된다. 

반응형