import pandas as pd |
함수 |
설명 |
read_csv |
구분자 ","의 데이터를 읽어 올 때 사용 |
read_table |
구분자 "\t"의 데이터 읽어 올 때 사용 |
read_fwf |
구분자 없는 데이터를 읽어 올 때 사용 |
read_clipboard |
클립보드에 있는 데이터를 읽어 오고, read_table로 표시 |
[[ index col 지정 - 적용 전 ]]
parsed_org = pd.read_csv('ch06/csv_mindex.csv') |
[[ index col 지정 - 적용 후 ]]
parsed = pd.read_csv('ch06/csv_mindex.csv', index_col=['key1', 'key2']) |
[[ 공백으로 데이터 정제 ]]
result = pd.read_table('ch06/ex3.txt', sep='\s+') # 공백으로 구분 result |
[[ 행 선택적으로 데이터 정제 - 적용 전 ]]
pd.read_csv('ch06/ex4.csv') |
[[ 행 선택적으로 데이터 정제 - 적용 ]]
pd.read_csv('ch06/ex4.csv', skiprows=[0, 2, 3]) #0, 2, 3 행만 출력 |
[[ 컬럼 명 지정 - 적용 전 ]]
pd.read_csv('ch06/ex2.csv', header=None) |
[[ 컬럼 명 지정 - 적용 후 ]]
pd.read_csv('ch06/ex2.csv', header=None) |
[[ 문자열 치환 - 적용 전 ]]
result = pd.read_csv('ch06/ex5.csv', na_values=['NULL']) |
[[ 문자열 치환 - 적용 ]]
sentinels = {'message':['foo', 'NA'], 'something':['two']} pd.read_csv('ch06/ex5.csv', na_values = sentinels) |
[[ 파일 저장 - DataFrame 활용 ]]
data = pd.read_csv('ch06/ex5.csv') data.to_csv('out.csv') pd.read_csv('out.csv') |
[[ 파일 저장 - sys 라이브러리 활용 ]]
import sys data.to_csv(sys.stdout, sep='|') |
[[ 결과 ]] |something|a|b|c|d|message 0|one|1|2|3.0|4| 1|two|5|6||8|world 2|three|9|10|11.0|12|foo |
[[ 파일 저장 - 컬럼 선택적 저장 ]]
import sys data.to_csv(sys.stdout, index=False, cols['a', 'b', 'c']) |
[[ 결과 ]] a,b,c 1,2,3.0 5,6, 9,10,11.0 |
'프로그래밍 > Data Science' 카테고리의 다른 글
[Data Science] Threshold bar 활용 및 Package Install (0) | 2016.11.14 |
---|---|
[Hadoop] Connect...... (0) | 2016.11.04 |
[Data Science] 정규 표현식 (Regular Expressions) (0) | 2016.06.23 |
[Data Science] 특정 값 추출 하기 & 추출 한 테이블 파일로 저장 (0) | 2016.05.12 |
[Data Science] 새너티 테스트(Sanity Check) & 중복 데이터 카운트 (0) | 2016.05.06 |