반응형

Doing Data Science 책을 활용하기 때문에 책에서 사용하는 분석 환경을 맞추겠습니다.

Doing Data Science에서는 R + R Studio를 사용하고 있습니다.

 

따라서, R + R Studio를 설치합니다.

 

https://cran.r-project.org/

 

설치를 하고, 실행 하는 과정에서 간단한 기초 명령어를 소개 합니다.

 

1. Package 설치

Install.Package("패키지명")

 

Doing Data Scinec 에서 가장 먼저 설치하는 패키지가 "doBy" 패키지 입니다.

설치 명령은 다음과 같습니다.

 

install.packages("doBy")

 

2. Excel Passing

Excel을 Passing 하기 위해서는 R Studio를 사용할 땐 Perl을 설치 해야 합니다.

R Studio는 기본적으로 Perl을 활용하여 Excel을 Passing 합니다.

 

https://cran.r-project.org/web/packages/gdata/INSTALL

 

T<-read.xls("Template.xlsx", perl = "C:\\Perl\\bin\\perl.exe")

 

R은 Passing이 불편한 단점이 있다. (물론 제가 모르는 사용 방법이 있으면 R이 더 좋을 지도^^)

그래서, 저는 향후 iPython을 사용할 예정입니다. =)

 

Excel 형식 중에 csv 포멧을 활용하면 보다 쉽게 R Studio에서 Loadding은 가능합니다.

하지만, csv 형태로 하다보면 포멧이 깨지는 경우가 발생하기 때문에 정상적으로 잘 변환 되었는지 확인 작업이 필요합니다. 이점 참고 하시길...

 

Excel 파일 내용 정제 작업

 

> bk$gross.sqft <- as.numeric(gsub("[^[:digit:]]","",bk$gross.square.feet))
> bk$land.sqft <- as.numeric(gsub("[^[:digit:]]","",bk$land.square.feet))
> bk$sale.date <- as.Date(bk$sale.date)
> bk$year.built <- as.numeric(as.character(bk$year.built))

 

 

 

반응형

+ Recent posts