반응형

 

"mean_ratings" 라는 테이블이 존재한다고 할때, Column을 생성하는 방법은 다음과 같습니다.

 

mean_ratings['diff'] = mean_ratings['M'] - mean_ratings['F']

 

// mean_ratings 테이블에 "M"의 값을 "F"로 뺀 차이를 "diff" 라는 컬럼에 저장하는 명령어 입니다.

// diff가 양수 : M(남성)이 더 높은 점수를 준 타이틀입니다. / 음수 : F(여성)이 더 높은 점수를 준 타이틀 입니다.

 

"diff" 라는 Column이 추가됩니다.

사용하고 싶다면 다음과 같이 활용할 수 있습니다.

 

 mean_ratings.sort_values(by='diff')

 

정렬은 다음과 같이 확인 할 수 있습니다.

 

sorted_by_[Column][::-1][:15] 

ex) sorted_by_diff[::-1][:15]

 

이제 컬럼을 사용하는 방법을 알았으니, 표준편차를 구하는 것을 알아보도록 하겠습니다.

※ 표준편차 : 평균과 얼마나 가까이 있는가를 계산하는 방법 (상세설명)

 

[New Column Name] = data.groupby('Column Name')['Column Name'].std()

ex) rating_std_by_title = data.groupby('title')['rating'].std()

 

여러 파일이 존재할 경우 한번에 읽기 위해서는 다음과 같은 코드를 사용하면 됩니다.

pandas.concat 메소드를 활용하면 합칠 수 있습니다.

 

import pandas as pd

 

#파일명

years = range(1880, 2011)

pieces = []

 

# ex) alrex, M, 2004

columns = ['name', 'sex', 'births']

 

# 파일명 변경하면서 파일 읽기

for year in years: 

   path = '/names/yob%d.txt' % year

   frame = pd.read_csv(path, names = columns)

 

   frame['year'] = year

   pieces.append(frame)

 

# 모두 하나의 DataFrame으로 취합

names = pd.concat(pieces, ignore_index=True)

 

 

반응형

+ Recent posts