본문 바로가기
프로그래밍 언어/R

R 1. R 들어가기 앞서

by Jinger 2024. 1. 23.

서론

     R은 통계 분석 및 데이터 시각화를 위한 프로그래밍 언어 및 환경이다. R은 오픈 소스로 개발되어 있으며, 특히 통계학자, 데이터 분석가, 연구자 및 데이터 과학자들 사이에서 널리 사용되고 있다.


R 소개

특징

장점

  1. 풍부한 패키지 생태계: CRAN을 비롯한 패키지 생태계가 풍부하며, 다양한 분야에서 사용할 수 있는 패키지들이 제공된다. 이는 R을 다양한 분야의 문제에 대응할 수 있도록 확장 가능하게 만든다.
  2. 통계 및 그래픽 기능: R은 통계 분석 및 데이터 시각화에 강점이 있다. 다양한 통계적 기법과 그래픽 기능을 활용하여 데이터를 분석하고 시각화하는 데에 매우 효과적이다.
  3. 커뮤니티 지원: R은 활발한 사용자 및 개발자 커뮤니티를 가지고 있어서 다양한 문제에 대한 도움말과 자료를 얻을 수 있다.
  4. 데이터 다루기: R은 데이터를 다루기 위한 강력한 도구를 제공한다. 데이터 프레임이라는 유연한 데이터 구조를 사용하여 효과적으로 데이터를 조작하고 처리할 수 있다.
  5. 통합 개발 환경: RStudio와 같은 통합 개발 환경은 R 프로그래밍을 보다 효율적으로 수행할 수 있도록 도와준다.

단점

  1. 학습 곡선: R은 처음에는 다소 학습 곡선이 가파를 수 있다. 특히 프로그래밍 경험이 없는 사용자에게는 처음에 어려움을 겪을 수 있다.
  2. 성능: 대용량 데이터를 다루는 데에는 몇몇 다른 언어 및 도구에 비해 성능이 상대적으로 떨어질 수 있다. 하지만 최근에는 이러한 성능 문제를 해결하기 위한 노력들이 있다.
  3. 산업적 사용: 비교적 최근까지는 산업적 환경에서 다른 언어들에 비해 상대적으로 적게 사용되었다. 그러나 데이터 과학 및 분석 분야에서의 인기 상승으로 인해 산업적 사용도 증가하고 있다.
  4. 데이터베이스 연동의 한계: R은 데이터베이스와 연동하는 데 일부 언어에 비해 제약이 있을 수 있다.
  5. 비동기 프로그래밍의 한계: R은 비동기 프로그래밍에 제약이 있어 대용량이나 실시간 데이터 처리에는 적합하지 않을 수 있다.

     요약하자면, R은 통계 분석, 데이터 시각화 등 특정 분야에서 강력한 도구이지만, 초기 학습 곡선이 가파르고 대용량 데이터 처리에는 다소 한계가 있다. 그러나 계속해서 발전하고 확장되며, 데이터 분석 및 통계 분야에서는 여전히 강력한 선택지 중 하나이다.

사용처

    R은 데이터 과학, 통계, 경제학, 생물학, 의학, 금융 등 다양한 분야에서 활용되고 있으며, 데이터 분석 및 통계 작업을 위한 강력하고 유연한 도구로 평가받고 있다.

  1. 통계 분석 및 데이터 시각화: R은 강력한 통계 분석 기능을 제공하며, 데이터를 시각화하고 이해하기 쉽게 만드는 데에도 뛰어나다. 다양한 통계 및 시각화 패키지가 있어서 사용자가 다양한 분야에서 데이터를 탐색하고 분석할 수 있다.
  2. 패키지 시스템: R은 패키지 시스템을 통해 다양한 기능을 확장할 수 있다. CRAN (Comprehensive R Archive Network)과 같은 리포지터리에서 다양한 패키지를 다운로드하여 사용할 수 있다.
  3. 통합 개발 환경 (IDE): RStudio와 같은 IDE는 R 프로그램을 쉽게 작성하고 실행할 수 있도록 도와준다. 이러한 IDE는 코드 편집, 데이터 시각화, 패키지 관리 등을 효율적으로 수행할 수 있는 기능을 제공한다.
  4. 데이터 다루기: R은 데이터 프레임(data frame)이라는 효과적인 데이터 구조를 제공하여 테이블 형식의 데이터를 다루기 용이하다. 데이터 전처리 및 정제 작업을 효과적으로 수행할 수 있다.
  5. 통계적 모형: R은 다양한 통계적 모형을 구축하고 검증하는 기능을 제공한다. 회귀 분석, 시계열 분석, 클러스터링, 머신러닝 등 다양한 통계 및 예측 모델을 만들 수 있다.
  6. 커뮤니티와 자료 공유: R은 활발한 사용자 및 개발자 커뮤니티를 가지고 있으며, 다양한 자료 및 도움말이 온라인에서 공유되어 있다.

   그 외에 머신러닝 모델링, 텍스트 마이닝, 소셜 네트워크 분석, 지도 시각화, 주식 분석, 이미지 분석, 사운드 분석, 웹 애플리케이션 개발 등을 할 수 있다.


파이썬과 비교하여

    R과 파이썬은 모두 데이터 과학, 통계 분석, 머신 러닝, 인공 지능 등의 분야에서 널리 사용되는 프로그래밍 언어이다. 각각의 언어는 특정 목적에 따라 장단점이 있다.

파이썬 특징

  1. 다목적 프로그래밍 언어: 파이썬은 다목적 프로그래밍 언어로, 웹 개발, 자동화, 게임 개발 등 다양한 분야에서 사용된다.
  2. 머신 러닝 및 딥 러닝: 파이썬은 머신 러닝 및 딥 러닝 분야에서 매우 인기가 있다. TensorFlow, PyTorch 등의 라이브러리를 활용한 딥 러닝 모델 구축이 용이하다.
  3. 풍부한 라이브러리 생태계: 파이썬은 다양한 분야에 대한 라이브러리와 패키지가 풍부하게 제공되어 있다. Pandas, NumPy, Matplotlib 등은 데이터 과학 분야에서 널리 사용된다.
  4. 대용량 데이터 처리: 파이썬은 대용량 데이터 처리를 위한 도구와 라이브러리가 풍부하며, 분산 컴퓨팅 환경에서 활용이 가능하다.
  5. 선형 및 비선형 프로그래밍: 파이썬은 프로그래밍 언어로서 R에 비해 범용적으로 사용되기 때문에, 선형 및 비선형 프로그래밍과 같은 다양한 프로그래밍 작업에 적합하다.

공통점

  1. 데이터 과학 및 분석: 둘 다 데이터 과학 및 분석 분야에서 널리 사용되며, 데이터 처리, 시각화, 통계 모델링 등에 적합하다.
  2. 커뮤니티: 두 언어 모두 활발한 개발자 커뮤니티를 가지고 있어, 다양한 문제에 대한 도움과 자료를 얻을 수 있다.
  3. 오픈 소스: R과 파이썬은 모두 오픈 소스로 개발되었으며, 무료로 사용할 수 있다.

    최종적으로 선택은 사용자의 선호도, 프로젝트 요구 사항, 개발 환경 등에 따라 다를 수 있다. 일부 프로젝트에서는 R이 더 적합하고, 다른 프로젝트에서는 파이썬이 더 적합할 수 있다.

무엇을 사용해야하나?

   어떤 용도로 도구를 활용할 것인지를 중심에 놓고 판단하면 된다. 만약 데이터를 분석하는 데 목적이 있다면 R을 권장한다. 파이썬은 R에 비해 프로그래밍 지식이 더 필요하고, 동일한 분석을 하는 데 더 많은 작업을 해야 한다. 반면, 웹 서비스나 소프트웨어를 개발하는 데 데이터 분석을 활용하고자 한다면 파이썬을 사용하길 권장한다. R에도 웹 애플리케이션을 만드는 기능이 있지만 파이썬처럼 자유롭게 구현하기는 어렵다.


사용하기 전에

   다른 언어와 마찬가지로 R을 코딩할 환경 개발툴이 필요하다. 그렇기에 RR 스튜디오를 설치하자.

R 설치

    R은 아래와 같이 따라가면 설치할 수 있다.

   한국 버전을 찾자.

   자신의 운영체제에 맞는 설치를 클릭한다.

    웬만해선 "install R for the first time"으로 설치해도 큰 지장이 없다.

R Studio 설치

   R Studio는 다음과 같이 설치할 수 있다.

   자신의 운영체제에 맞는 설치를 클릭한다.

R Studio 살펴보기

   위 방식대로 설치를 하면 위와 같이 두 가지가 설치되어 있을 것이다. 우리는 R Studio에서 개발을 할 것이다. 아래 그림과 같이 창을 구분할 수 있으며 코딩을 하기 위해 빨간 박스 표시한 곳을 클릭하면 된다.

     "New Directory"는 새 프로젝트 폴더를 만들 때, "Existing Directory"는 기존 폴더를 이용할 때, "Version Control"은 깃허브 등의 버전 관리 시스템을 이용할 때 사용된다. 혹은 "File" > "R script"를 통해 스크립트를 작성할 공간을 만들 수 있다.

   프로젝트 저장할 때 한글로 된 경로는 최대한 피하자.


주섬주섬

     앞으로 R 글에 대부분은 "Do it! 쉽게 배우는 R 데이터 분석"<김영우>을 참고한 것과 내가 수업을 위해 만든 자료들이다. 아래 R 치트 시트도 함께 올려두었다. 급하면 치트 시트를 참고 바란다.

참고

 

Posit

The best data science is open source. Posit is committed to creating incredible open-source tools for individuals, teams, and enterprises.

posit.co

 

R: The R Project for Statistical Computing

 

www.r-project.org

 

Posit

The best data science is open source. Posit is committed to creating incredible open-source tools for individuals, teams, and enterprises.

posit.co

 

반응형

'프로그래밍 언어 > R' 카테고리의 다른 글

R 6. 데이터 정제하기  (0) 2024.01.30
R 5. 데이터 가공하기  (0) 2024.01.29
R 4. 데이터 파악하기  (2) 2024.01.27
R 3. 데이터 프레임  (1) 2024.01.26
R 2. 데이터 분석 이전 기본 개념  (2) 2024.01.25

댓글