[Data Science] Pandas - 로딩, 저장, 형식 :: 앞만 보고 가는거야!!!

[Data Science] Pandas - 로딩, 저장, 형식

2016. 6. 23. 15:51

import pandas as pd

※ pandas를 활용하면 DataFrame의 객체로 생성 해 줍니다.

함수	설명
read_csv	구분자 ","의 데이터를 읽어 올 때 사용
read_table	구분자 "\t"의 데이터 읽어 올 때 사용
read_fwf	구분자 없는 데이터를 읽어 올 때 사용
read_clipboard	클립보드에 있는 데이터를 읽어 오고, read_table로 표시

[[ index col 지정 - 적용 전 ]]

parsed_org = pd.read_csv('ch06/csv_mindex.csv')
parsed_org

[[ index col 지정 - 적용 후 ]]

parsed = pd.read_csv('ch06/csv_mindex.csv', index_col=['key1', 'key2'])
parsed

[[ 공백으로 데이터 정제 ]]

result = pd.read_table('ch06/ex3.txt', sep='\s+') # 공백으로 구분

result

[[ 행 선택적으로 데이터 정제 - 적용 전 ]]

pd.read_csv('ch06/ex4.csv')

[[ 행 선택적으로 데이터 정제 - 적용 ]]

pd.read_csv('ch06/ex4.csv', skiprows=[0, 2, 3]) #0, 2, 3 행만 출력

[[ 컬럼 명 지정 - 적용 전 ]]

pd.read_csv('ch06/ex2.csv', header=None)

[[ 컬럼 명 지정 - 적용 후 ]]

pd.read_csv('ch06/ex2.csv', header=None)

[[ 문자열 치환 - 적용 전 ]]

result = pd.read_csv('ch06/ex5.csv', na_values=['NULL'])

[[ 문자열 치환 - 적용 ]]

sentinels = {'message':['foo', 'NA'], 'something':['two']}

pd.read_csv('ch06/ex5.csv', na_values = sentinels)

[[ 파일 저장 - DataFrame 활용 ]]

data = pd.read_csv('ch06/ex5.csv')

data.to_csv('out.csv')

pd.read_csv('out.csv')

[[ 파일 저장 - sys 라이브러리 활용 ]]

import sys

data.to_csv(sys.stdout, sep='|')

[[ 결과 ]]

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo

[[ 파일 저장 - 컬럼 선택적 저장 ]]

import sys

data.to_csv(sys.stdout, index=False, cols['a', 'b', 'c'])

[[ 결과 ]]

a,b,c
1,2,3.0
5,6,
9,10,11.0

[Data Science] Threshold bar 활용 및 Package Install (0)	2016.11.14
[Hadoop] Connect...... (0)	2016.11.04
[Data Science] 정규 표현식 (Regular Expressions) (0)	2016.06.23
[Data Science] 특정 값 추출 하기 & 추출 한 테이블 파일로 저장 (0)	2016.05.12
[Data Science] 새너티 테스트(Sanity Check) & 중복 데이터 카운트 (0)	2016.05.06