[Day1. R이 뭔데요?]

안녕하세요, 새로운 블로그를 시작하게 되어 벌써부터 마음이 설레입니다!

R 설치부터 내 데이터 프로젝트 만들기까지, 전체적으로 한 번 해보도록 하겠습니다. 

일단 우리가 지금부터 배워볼 R이라는 프로그램이 어떻게 쓰이고 장/단점이 무엇인지부터 알아보며 시작하도록 하겠습니다 : )

 

1. R이 뭔데요? - R의 기원과 활용

R이란, 통계분야에서 많이 사용되는 데이터 분석 소프트웨어입니다. 다양한 분야에서 사용되고 있지만, 주요 목적은 통계 즉 데이터 분석에 최적화 되어 있습니다. 데이터의 특성을 살펴보는 기초 통계 분석(=EDA)부터 가설검정, 머신러닝 모델링, 텍스트 마이닝 등과 같은 다양한 기능이 있어 원한다면 어떤 분석이던 쉽게 할 수 있데 도와줍니다. 심지어 소셜 네트워크(SNS) 크롤링(데이터 긁어오기)을 해 분석도 가능합니다. 지도나 그림 위에 데이터를 점 찍을 수도 있고, 주식이나 지가분석과 같은 시간별로 분석이 중요한 데이터 분석들도 가능합니다. 

 

요즘 딥러닝, 머신러닝이 주력으로 자리잡고 있는데 이러한 분석들도 R에서 가능합니다. 

R안에서만 결과를 보여주는 것이 아니라 웹 애플리케이션로 웹 페이지에서 분석하여 결과를 볼 수 있게도 해주는 반응형 웹 패키지(Shiny)도 있습니다. 이렇게 사용법을 잘 알고 사용하게 된다면 업무 효율성 뿐만 아니라 데이터로 인사이트를 도출해낼 수도 있게 해주는 유용한 소프트웨어입니다. 

 

이 외에도 통계 소프트웨어는 SAS, SPSS 등 여러가지가 존재하지만 비용문제나 소스공개 및 패키지 문제로 국내기업이나 대다수의 조직들이 사용하고 있으며, 해외에서도 많이 사용되고 있습니다.

 

2. 왜 R인가?

 

R의 장점은 굉장히 많지만, 책에서 소개한 것들 위주로 자세히 설명해보면, R은 무료로 사용할 수 있는 오픈 소스를 공개하고 있습니다. 이 말이 무슨 말인지 이해가 잘 안되실텐데요. 다른 통계 소프트웨어들과 비교하면 차이를 아실 수 있습니다. 

R설치 링크 : cran.r-project.org/

SAS설치 링크 : www.sas.com/ko_kr/software/how-to-buy/request-price-quote.html

SPSS설치 링크 : spss.datasolution.kr/product/product_statistics.asp

R은 바로 설치가 가능한데, SAS 와 SPSS 는 구입 문의와 견적을 받아야 합니다. 개인이 부담하기에는 터무니 없이 비싼 가격입니다. SAS는 대부분 정부기관에서 많이 사용하고, SPSS는 기업단위로 많이 사용합니다. 하지만 아무래도 연간 비용이 비싸 개인이 구입하여 공부하기에는 무리입니다. 

 

이에 반해 R은 오픈 소스 생태계까지 갖추고 있어 구매하지 않고도 사용하고 응용할 수 있기 때문에 다양한 패키지가 계속해서 업데이트 되고 있고, 이를 다운받는데도 따로 비용없이 사용할 수 있습니다. R에 등록되어 있는 패키지는 까다로운 심사과정을 거쳐 등록되고 있고, Git에 들어가보면 정식등록이 되어 있지 않지만 유용한 패키지들이 공유되고 있습니다. 여러 분야에서 유용하게 사용되고 있는 이유도 여기 있습니다.

 

셋째로, 이렇게 다양한 분야에서 많은 사람들이 사용하고 있기 때문에 많은 책이나 데이터와 같은 교육자료들이 넘치고 있습니다. R에서 어떤 함수의 사용법이나 응용방법을 사용하고 싶다면 구글링으로 "검색어 in R" 으로 검색하면 stackoverflow 등에서 다양한 해결법을 찾을 수 있습니다.

예를 들면 R함수 mean의 사용법과 예제등을 찾아보고 싶다면 

이런 식으로 검색할 수 있습니다. 검색 결과가 약 10억개 정도 나오는데, 이 중에서 몇 개만 클릭해도 필요한 정보들을 찾을 수 있습니다.

만약 나오지 않는다면 좀 더 검색어를 디테일하게 해야합니다. 오류 구문을 그대로 쳐보는 것도 하나의 방법입니다. 

 

넷째로는 다양한 그래프를 구현할 수 있습니다. 여러가지 색으로 꾸밀수도 있고, 점이 아닌 세모,네모와 같은 다른 도형을 이용해 시각화할 수 있는 기능도 있는 등 효율적인 그래프 그리기가 가능합니다. R에서 많이 사용하는 패키지는 ggplot2라는 패키지입니다. 후에 포스팅에서 ggplot2에 대해서도 자세하게 다루도록 하겠습니다. 

 

다섯째로는 전문적인 데이터분석이 가능한 '프로그래밍 방식'으로도 운영되고 있다는 점입니다. 둘 다 지원하고 있습니다. GUI와 프로그래밍 방식을 모두 써 본 저는 확연히 차이를 느낄 수 있었습니다. 클릭만하면 되는 GUI는 처음 다루기에는 쉽지만, 틀에 맞는 분석과정을 거쳐야 결과를 볼 수 있는 방면, 프로그래밍 방식은 정답이 정해져 있지 않으므로 개인마다 다른 코딩을 사용해도 같은 결과를 얻을 수 있습니다. 그리고 객체지향형 언어를 사용하기 때문에 C언어와 같이 컴퓨터 언어로 우리가 알 수 없는 코드를 치는 것이 아닌, 인간에게 맞춰져 있는 대부분이 뜻이 있는 영어단어로 된 코드가 많습니다. 

 

여섯째로는 위처럼 코드를 작성해서 구현하기 때문에 클릭과는 다르게 재현할 수 있다는 장점도 있습니다. 그리고 마우스 클릭에서는 잘 못 누를 경우가 많은데, 코드로 입력하면 잘못된 부분을 파악하여 그 부분만 고치면 다시 실행되는 것을 확인하실 수 있습니다.

 

마지막으로 공동작업이 가능하나는 점입니다. 다방면의 전문가들이 모여도 코드로 진행상황이 확인도 되고, 공유하면서 같이 작업을 할 수 있습니다. R은 git과의 연동도 가능하기 때문에 이를 활용하면 충분히 공유가 가능합니다. 

 

 

이로써 R의 많은 장점에 대해 알아보았는데요! 장점을 알게되니 더 빨리 배우고 싶지 않으신가요? 다음 포스트에는 R을 사용할 수 있게 설치해보고, 분석환경을 만들어 분석을 위한 준비를 하려합니다. 

오늘도 수고하셨습니다! 

728x90
반응형

'데이터과학 > R' 카테고리의 다른 글

[Day4. R Studio 프로젝트 만들기 및 유용한 환경 설정]  (0) 2020.11.11
[Day3. R Studio 설치]  (0) 2020.11.10
[Day2. R 설치]  (0) 2020.11.09