반응형
판다스는 다양한 형태의 외부파일을 읽어와서 데이터 프레임으로 변환할 수 있다.
file format | Reader | Writer |
CSV | read_csv | to_csv |
JSON | read_json | to_json |
HTML | read_html | to_html |
Local clipboard | read_clipboard | to_clipboard |
MS Excel | read_excel | to_excel |
HDF5 Format | read_hdf | to_hdf |
SQL | read_sql | to_sql |
1. CSV파일
데이터 값을 쉼표로 구분한다는 의미로 comma-separated values 를 줄여 CSV라고 부른다.
쉼표로 열을 구분하고 줄바꿈으로 행을 구분한다.
pandas.read_csv("파일경로")
인자로 여러 옵션들을 전달 할 수도 있다.
이런 옵션들은 다른 파일을 다룰 때도 거의 똑같으니 잘 봐두자!
path | 파일의 위치, 파일명, URL |
sep (delimiter) | 텍스트 데이터를 구별하는 문자 (default=',') |
header | 열 이름으로 사용할 행의 번호 (default=0), None도 가능 |
index_col | 열 이름으로 사용할 행의 번호 (default=None) |
names | 열 이름으로 사용할 문자열의 리스트 |
skiprows | 처음 몇 줄을 skip할 건지 숫자 입력, 행번호 리스트도 가능 |
parse_dates | 날짜 텍스트를 datetime64로 변환할건지 (default-False) |
skip_footer | 마지막 몇 줄을 skip할 건지 숫자 입력 |
encoding | 텍스트 인코딩 종류를 지정 |
2. Excel 파일
엑셀파일의 행과 열은 데이터 프레임의 행과 열로 일대일 대응이 된다.
Csv에서 나온 옵션들을 그대로 사용할 수 있다.
아나콘다 배포판을 사용하지 않는 경우 오류메세지가 뜰 수 있는데 이는 엑셀 파일 데이터 추출을 지원하는 xlrd 라이브러리를 설치해야한다.
3. JSON 파일
JSON파일은 데이터 공유를 목적으로 개발된 특수한 파일 형식이다.
파일썬 딕셔너리와 비슷하게 key와 value구조를 갖는다.
key들이 열의 상단으로 가게된다.
반응형
'공부 > 판다스 데이터분석' 카테고리의 다른 글
[ Pandas ] 웹, API를 활용하여 데이터 수집하기 (0) | 2023.01.28 |
---|---|
[ Pandas ] 산술연산 (시리즈, 데이터프레임) (0) | 2023.01.10 |
[ Pandas ] 인덱스 활용 (0) | 2023.01.07 |
[ Pandas ] 판다스 자료구조 (시리즈, 데이터 프레임) (0) | 2023.01.06 |