"mean_ratings" 라는 테이블이 존재한다고 할때, Column을 생성하는 방법은 다음과 같습니다.
mean_ratings['diff'] = mean_ratings['M'] - mean_ratings['F'] |
// mean_ratings 테이블에 "M"의 값을 "F"로 뺀 차이를 "diff" 라는 컬럼에 저장하는 명령어 입니다.
// diff가 양수 : M(남성)이 더 높은 점수를 준 타이틀입니다. / 음수 : F(여성)이 더 높은 점수를 준 타이틀 입니다.
"diff" 라는 Column이 추가됩니다.
사용하고 싶다면 다음과 같이 활용할 수 있습니다.
mean_ratings.sort_values(by='diff') |
정렬은 다음과 같이 확인 할 수 있습니다.
sorted_by_[Column][::-1][:15] ex) sorted_by_diff[::-1][:15] |
이제 컬럼을 사용하는 방법을 알았으니, 표준편차를 구하는 것을 알아보도록 하겠습니다.
※ 표준편차 : 평균과 얼마나 가까이 있는가를 계산하는 방법 (상세설명)
[New Column Name] = data.groupby('Column Name')['Column Name'].std() ex) rating_std_by_title = data.groupby('title')['rating'].std() |
여러 파일이 존재할 경우 한번에 읽기 위해서는 다음과 같은 코드를 사용하면 됩니다.
pandas.concat 메소드를 활용하면 합칠 수 있습니다.
import pandas as pd
#파일명 years = range(1880, 2011) pieces = []
# ex) alrex, M, 2004 columns = ['name', 'sex', 'births']
# 파일명 변경하면서 파일 읽기 for year in years: path = '/names/yob%d.txt' % year frame = pd.read_csv(path, names = columns)
frame['year'] = year pieces.append(frame)
# 모두 하나의 DataFrame으로 취합 names = pd.concat(pieces, ignore_index=True) |
'프로그래밍 > Data Science' 카테고리의 다른 글
[Data Science] 특정 값 추출 하기 & 추출 한 테이블 파일로 저장 (0) | 2016.05.12 |
---|---|
[Data Science] 새너티 테스트(Sanity Check) & 중복 데이터 카운트 (0) | 2016.05.06 |
[Data Science] CSV Format Parssing & Merge (0) | 2016.04.28 |
[Data Science] IPython qtconsole 실행 에러 & jupyter 실행 (0) | 2016.04.27 |
[Data Science] IPython(iPython) 활용하기 (0) | 2016.04.26 |