반응형

Doing Data Science 책을 활용하기 때문에 책에서 사용하는 분석 환경을 맞추겠습니다.

Doing Data Science에서는 R + R Studio를 사용하고 있습니다.

 

따라서, R + R Studio를 설치합니다.

 

https://cran.r-project.org/

 

설치를 하고, 실행 하는 과정에서 간단한 기초 명령어를 소개 합니다.

 

1. Package 설치

Install.Package("패키지명")

 

Doing Data Scinec 에서 가장 먼저 설치하는 패키지가 "doBy" 패키지 입니다.

설치 명령은 다음과 같습니다.

 

install.packages("doBy")

 

2. Excel Passing

Excel을 Passing 하기 위해서는 R Studio를 사용할 땐 Perl을 설치 해야 합니다.

R Studio는 기본적으로 Perl을 활용하여 Excel을 Passing 합니다.

 

https://cran.r-project.org/web/packages/gdata/INSTALL

 

T<-read.xls("Template.xlsx", perl = "C:\\Perl\\bin\\perl.exe")

 

R은 Passing이 불편한 단점이 있다. (물론 제가 모르는 사용 방법이 있으면 R이 더 좋을 지도^^)

그래서, 저는 향후 iPython을 사용할 예정입니다. =)

 

Excel 형식 중에 csv 포멧을 활용하면 보다 쉽게 R Studio에서 Loadding은 가능합니다.

하지만, csv 형태로 하다보면 포멧이 깨지는 경우가 발생하기 때문에 정상적으로 잘 변환 되었는지 확인 작업이 필요합니다. 이점 참고 하시길...

 

Excel 파일 내용 정제 작업

 

> bk$gross.sqft <- as.numeric(gsub("[^[:digit:]]","",bk$gross.square.feet))
> bk$land.sqft <- as.numeric(gsub("[^[:digit:]]","",bk$land.square.feet))
> bk$sale.date <- as.Date(bk$sale.date)
> bk$year.built <- as.numeric(as.character(bk$year.built))

 

 

 

반응형
반응형

Data Sicence라는 말이 무엇인지 모르고 시작한 과정에서 점차 조금씩 Data Sicencer로 가는 과정을 정리하려고 합니다.

 

Data Sicence란 무엇인가?

Data Sicence는 흔히 한국에서 이야기 하는 데이터 마이닝을 일컫는 학문입니다. 데이터를 기반으로 수학적 통계를 활용하여 소프트웨어적으로 표현하는 과정을 의미합니다.

 

데이터 과학자 : 어떠한 소프트웨어 공학자보다 통계학을 잘 알고 어떠한 통계학자보다 소프트웨어 공학을 잘 아는 사람. - 조시 월스

 

말이 어렵죠.

저도 어렵네요.

 

그래서도 시작하는 단계이므로 관련 서적이 있으면 좋겠죠?

 

http://book.naver.com/bookdb/book_detail.nhn?bid=7363405

 

 

무슨 말인지 모르지만, 그냥 처음부터 끝까지 읽는 것이 첫번째 목표 입니다.

그 뒤엔 또 시간 나면 다시 읽고, 다음 책으로 넘어갈 예정입니다.

 

앞으로 볼 책은 다음과 같습니다.

 

1. Doing Data Science

2. Python for Data Analysis

3. The R Book

4. R Cookbook

5. MNIST Tutorial

6. 파이썬과 Jupyter Notebook 2/e (교육 자료로 활용 좋음/예제 많음.)

 

R은 아무래도 Data Sicence에서 가장 기본적으로 사용하는 것이므로 모르는 것 보다는 활용 방법에 대해서 알아두고

바이블 형태로 찾아가기 위해서 익히는 과정을 연습할 예정입니다.

Python for Data Analysis는 iPython을 활용하여 분석할 예정이므로 아직 어떠한 그림도 그려지지 않았습니다.

그림이 그려지면 다시 등장하죠~^^

 

그럼 또 다른 게시물이 나오길 바라며~!

See you next time~~

 

반응형

+ Recent posts