'pandas' 태그의 글 목록

pandas

[Data Science] Pandas - 로딩, 저장, 형식 2016.06.23
[Data Science] IPython(iPython) 활용하기 2016.04.26

[Data Science] Pandas - 로딩, 저장, 형식

2016. 6. 23. 15:51

import pandas as pd

※ pandas를 활용하면 DataFrame의 객체로 생성 해 줍니다.

함수	설명
read_csv	구분자 ","의 데이터를 읽어 올 때 사용
read_table	구분자 "\t"의 데이터 읽어 올 때 사용
read_fwf	구분자 없는 데이터를 읽어 올 때 사용
read_clipboard	클립보드에 있는 데이터를 읽어 오고, read_table로 표시

[[ index col 지정 - 적용 전 ]]

parsed_org = pd.read_csv('ch06/csv_mindex.csv')
parsed_org

[[ index col 지정 - 적용 후 ]]

parsed = pd.read_csv('ch06/csv_mindex.csv', index_col=['key1', 'key2'])
parsed

[[ 공백으로 데이터 정제 ]]

result = pd.read_table('ch06/ex3.txt', sep='\s+') # 공백으로 구분

result

[[ 행 선택적으로 데이터 정제 - 적용 전 ]]

pd.read_csv('ch06/ex4.csv')

[[ 행 선택적으로 데이터 정제 - 적용 ]]

pd.read_csv('ch06/ex4.csv', skiprows=[0, 2, 3]) #0, 2, 3 행만 출력

[[ 컬럼 명 지정 - 적용 전 ]]

pd.read_csv('ch06/ex2.csv', header=None)

[[ 컬럼 명 지정 - 적용 후 ]]

pd.read_csv('ch06/ex2.csv', header=None)

[[ 문자열 치환 - 적용 전 ]]

result = pd.read_csv('ch06/ex5.csv', na_values=['NULL'])

[[ 문자열 치환 - 적용 ]]

sentinels = {'message':['foo', 'NA'], 'something':['two']}

pd.read_csv('ch06/ex5.csv', na_values = sentinels)

[[ 파일 저장 - DataFrame 활용 ]]

data = pd.read_csv('ch06/ex5.csv')

data.to_csv('out.csv')

pd.read_csv('out.csv')

[[ 파일 저장 - sys 라이브러리 활용 ]]

import sys

data.to_csv(sys.stdout, sep='|')

[[ 결과 ]]

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo

[[ 파일 저장 - 컬럼 선택적 저장 ]]

import sys

data.to_csv(sys.stdout, index=False, cols['a', 'b', 'c'])

[[ 결과 ]]

a,b,c
1,2,3.0
5,6,
9,10,11.0

저작자표시 비영리 변경금지

'프로그래밍 > Data Science' 카테고리의 다른 글

[Data Science] Threshold bar 활용 및 Package Install (0)	2016.11.14
[Hadoop] Connect...... (0)	2016.11.04
[Data Science] 정규 표현식 (Regular Expressions) (0)	2016.06.23
[Data Science] 특정 값 추출 하기 & 추출 한 테이블 파일로 저장 (0)	2016.05.12
[Data Science] 새너티 테스트(Sanity Check) & 중복 데이터 카운트 (0)	2016.05.06

[Data Science] IPython(iPython) 활용하기

2016. 4. 26. 19:29

python을 활용한 Data Science를 하기 위해서는 다음과 같은 환경에서 업무는 하는 것이 좋습니다.

(출처 : Python for Data Analysis)

1. Numpy (pip install numpy)

과학계산용 파운데이션 패키지

· 빠르고 효율적인 다차원 배열 객체 ndarry

· 배열 원소를 다루거나 배열 간의 수학 계산을 수행하는 함수

· 디스크로부터 배열 기반의 데이터를 읽거나 쓸 수 있는 도구

· 선형대수 계산, 푸리에 변환, 난수 발생기

· 파이썬과 c, c++ 그리고 포트란 코드를 통합하는 도구

2. pandas (pip install pandas)

구조화된 데이터를 빠르고 쉬우면서도 다양한 형식으로 가공할 수 있는 풍부한 자료 구조와 함수를 제공

3. matplotlib (pip install matplotlib [or] pip install -m matpoltlib)

그래프나 2차원 데이터 시각화를 생성하는 유명한 파이썬 라이브러리

4. IPython (pip install IPython)

표준 과학계산용 파이썬 도구 모음에 포함된 컴포넌트

· IPython을 웹브라우저와 연결할 수 있는 Mathematica 스타일의 HTML 노트북 기능

· 그래프를 즉시 그려보거나 여러 줄을 편집할 수 있는 기능 그리고 문법 강조 기능을 가진 Qt 프레임워크 기반의 GUI 콘솔

· 병렬 분산 컴퓨팅을 위한 기반 구조

· Tutorial : https://plot.ly/python/ipython-notebook-tutorial/

5. SciPy (pip install SciPy)

과학계산 컴퓨팅 영역의 여러 기본 문제를 다루는 패키지 모음

· scipy.integrate : 수치적분 루틴과 미분방정식 해법기

· scipy.linalg : numpy.linalg에서 제공하는 것보다 더 확장된 선형대수 루틴과 매트릭스 분해

· scipy.optimize : 함수 최적화기와 방정식의 근을 구하는 알고리즘

· scipy.signal : 시그널 프로세싱 도구

· scipy.sparse : 희소 행렬과 희소 선형 시스템 풀이법

· scipy.special : 감마 함수처럼 흔히 사용되는 수학 함수를 구현한 포트란 라이브러리인 SPECFUN 확장

· scipy.stats : 표준 연속/이산 확률 분포(집적도 함수, 샘플러, 연속 분포 함수)와 다양한 통계 테스트 그리고 좀 더 기술적인 통계 도구

· scipy.weave : 배열 계산을 빠르게 하기 위한 인라인 c++ 코드를 사용하는 도구

6. jupyter (pip install jupyter)

matplotlib을 활용하기 위해서 설치해야 하는 라이브러리

ipython notebook을 사용하려면 jupyter를 설치해야 합니다.

notebook은 Interative IDE이며, 향후 활용해야 하므로 미리 설치 합니다.

7. Matplotlib (pip install Matplotlib)

그래프를 활용하기 위해서 사용하는 필수 라이브러리

설치 할 경우 대소문자를 구문하니 반드시 "M"을 대 문자로 표시 해야 합니다.

이 모든 것이 포함된 도구는 아나콘다(Anaconda)라는 시스템이 있습니다.

https://www.continuum.io/downloads#_windows

추가적으로 프롬포트상의 highlighting을 적용하고 싶다면 다음의 패키지를 설치하면 됩니다.

distribute (pip install distribute)

pyreadline (pip install pyreadline)

저작자표시 비영리 변경금지

'프로그래밍 > Data Science' 카테고리의 다른 글

[Data Science] Column 사용하기 & 여러 파일 읽기 (0)	2016.05.02
[Data Science] CSV Format Parssing & Merge (0)	2016.04.28
[Data Science] IPython qtconsole 실행 에러 & jupyter 실행 (0)	2016.04.27
[Data Science] R + R Studio Install & Excel Passing (0)	2016.04.21
[Data Sicence] beginning...... (0)	2016.04.21

PREV 이전 1 NEXT 다음

앞만 보고 가는거야!!!

pandas

[Data Science] Pandas - 로딩, 저장, 형식

'프로그래밍 > Data Science' 카테고리의 다른 글

[Data Science] IPython(iPython) 활용하기

'프로그래밍 > Data Science' 카테고리의 다른 글

+ Recent posts

티스토리툴바