본문 바로가기

프로그래밍 언어/R14

R 초보자 꿀팁 서론 코드를 실행할 때 종종 에러가 발생한다. 모든 에러에 대해 다룰 수는 없지만 종종 나오는 에러와 에러 메시지에 대해 가볍게 알아보자. 초보자가 자주 하는 실수 에러 시 가장 먼저 패키지를 로드했는지, 데이터를 불러왔는지, 변수명을 정확하게 입력했는지 확인하자. 이곳에 문제가 없다면 다음과 같은 실수를 했는지 점검하자. 콘솔 창에 이상한 문자가 입력되어 있는 경우: 콘솔 창이 입력 대기 상태로 '>' 기호가 표시되어 있는지 확인하자. 이상한 문자가 입력되어 있다면 'esc'를 눌러 입력 대기 상태로 되돌아온 후 다시 소스창에 코드를 실행하자. 완결되지 않은 코드를 실행한 경우: 콘솔창이 코드가 더 입력되길 기다리는 상태가 되고 '+'기호가 표시된다. 코드 마지막에 '+', '%>%', '%in%' 기.. 2024. 2. 2.
R 13. 기타 서론 R에 대한 이해를 더 높이고자 개념에 대해 깊이 알아보자. 내장 함수 dplyr을 많이 사용하지만 기본적인 문법을 알아야 다른 사람의 코드를 이해할 수 있다. # 데이터 불러오기 exam = 50]# 1반이면서 수학 점수가 50이상 ## 결과 생략 exam[, "class"]# class 변수 추출 ## 결과 생략 exam[, c("class", "math", "english")]# class, math, english 변수 추출 ## 결과 생략 exam[1,3]# 행 인덱스, 열 인덱스에 있는 값 ## 결과 생략 exam[5, "english"]# 행 인덱스, 열 변수명에 있는 값 ## 결과 생략 exam[exam$math >= 50, "english"]# 행 조건, 열 변수명에 있는 값들 ## .. 2024. 2. 2.
R 12. 통계적 가설 검정 서론 통계 분석을 이용해 가설을 검정하는 방법을 알아보자. 통계적 가설 검정 기술 통계와 추론 통계 통계 분석은 기술 통계와 추론 통계로 나눌 수 있다. 데이터를 요약해 설명하는 통계 기법을 '기술 통계(Descriptive statistics)'라고 한다. '추론 통계(Inferential statics)'는 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 기법이다. 일반적으로 통계 분석을 수행했다는 것은 추론 통계를 이용해 가설 검정을 했다는 의미이다. 기술 통계 분석에서 집단 간 차이가 있는 것으로 나타났더라도 이는 우연에 의한 차이일 수 있다. 데이터를 이용해 신뢰할 수 있는 결론을 내리려면 유의확률을 계산하는 통계적 가설 검정 절차를 거쳐야 한다. 더보기 기술 통계의 예.. 2024. 2. 2.
R 11. 인터랙티브 그래프 서론 마우스 움직임에 반응해 실시간으로 형태가 변하는 인터랙티브 그래프를 만드는 방법을 알아보자. 인터랙티브 그래프 인터랙티브 그래프(Interactive Graph)란, 마우스 움직임에 반응하며 실시간으로 형태가 변하는 그래프를 말한다. 인터랙티브 그래프를 만들면 그래프를 자유롭게 조작하면서 관심 있는 부분을 상세히 살펴볼 수 있다. 그래프를 HTML 포맷으로 저장하면, 일반 사용자들도 웹 브라우저를 이용해 그래프를 조작할 수 있다. 인터랙티브 그래프 만들기 plotly 산점도 # 패키지 준비하기 install.packages("plotly") library(plotly) # ggplot2 그래프 만들기 library(ggplot2) p 2024. 2. 2.
R 10. 지도 시각화 서론 지도에 지역별 특성을 색깔로 표현한 단계 구분도를 만드는 방법을 알아보자. 지도 시각화 지역별 통계치를 색깔의 차이로 표현한 지도를 '단계 구분도(Choropleth Map)'라고 한다. 단계 구분도를 보면 인구나 소득 같은 특성이 지역별로 얼마나 다른지 쉽게 이해할 수 있다. 단계 구분도는 'ggiraphExtra' 패키지를 이용해 쉽게 만들 수 있다. 'ggiraphExtra' 패키지를 이용하기 전에 'mapproj'패키지를 설치해야 한다. 'ggiraphExtra'의 'ggChoropleth()'을 이용해 단계 구분도를 만들 수 있다. install.packages("mapproj") install.packages("ggiraphExtra") library(ggiraphExtra) 미국 주별 .. 2024. 2. 2.
R 9. 텍스트 마이닝 서론 문자로 된 데이터에서 가치 있는 정보를 얻어 내는 텍스트 마이닝에 대해 알아보자. 텍스트 마이닝 문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법을 '텍스트 마이닝(Text mining)'이라고 한다. 텍스트 마이닝을 할 때 가장 먼저 하는 작업은 문장을 구성하는 어절들이 어떤 품사로 되어 있는지 파악하는 '형태소 분석(Morphology Analysis)'이다. 형태소 분석으로 어절들의 품사를 파악한 후 명사, 동사, 형용사 등 의미를 지닌 품사의 단어들을 추출해 각 단어가 얼마나 많이 등장했는지 확인한다. 텍스트 마이닝을 이용해 SNS나 웹 사이트에 올라온 글을 분석하면 사람들이 어떤 이야기를 나누고 있는지 파악할 수 있다. 힙합 음악 가사 'KoNLP(Korean Natural La.. 2024. 2. 2.
R 8. 데이터 분석하기 서론 앞서 배운 내용을 토대로 데이터를 분석해 보자. 준비하기 '한국복지패널데이터'를 이용하여 실습을 해보자. 한국복지패널데이터는 한국보건사회연구원에서 가구의 경제활동을 연구해 정책 지원에 반영할 목적으로 발간하는 조사 자료이다. 2006년부터 매년 7000 가구를 대상으로 조사한 자료로, 경제활동, 생활실태, 복지욕구 등 천여 개 변수로 구성되어 있다. 복지패널데이터는 엄밀한 절차로 수집되었고, 다양한 변수를 담고 있기에 연습하기 좋은 재료이다. 이를 통해 한국인의 삶을 살펴보자. 아래 예시는 2016년에 발간된 2015년의 한국인의 삶 데이터이다. 데이터 준비 깃헙에서 다운로드할 시 'Koweps_hpc10_2015_beta1.sav'파일을 다운하여 프로젝트 폴더에 삽입하면 된다. 직접 한국복지패널 .. 2024. 2. 1.
R 7. 그래프 만들기 서론 데이터를 쉽게 그림으로 표현한 것을 '그래프(Graph)'라고 한다. 데이터 원자료나 통계표는 수많은 숫자와 문자로 구성되어 있어서 의미를 파악하기 어렵다. 데이터를 그래프로 표현하면 추세와 경향성이 드러나기 때문에 특징을 쉽게 이해할 수 있다. 이번에는 앞서 데이터를 파악하고, 가공하고, 정제한 데이터를 가지고 그래프를 만들어보자. 산점도 데이터를 x축과 y축에 점으로 표현한 그래프를 '산점도(Scatter Plot)'라고 한다. 산점도는 나이와 소득처럼 연속 값으로 된 두 변수의 관계를 표현할 때 사용한다. ggplot2 문법은 레이어(layer) 구조로 되어 있다. 배경을 만들고(1 layer), 그 위에 그래프 형태를 그리고(2 layer), 마지막으로 축 범위, 색, 표식 등 설정을 추가하.. 2024. 1. 31.
R 6. 데이터 정제하기 서론 현장에서 만들어진 실제 데이터는 오류를 포함하고 있기 때문에 분석하기 전에 오류를 수정해야 한다. 이 과정을 데이터 정제라고 부른다. 여기서는 대표적으로 결측치와 이상치를 찾고 제거하는 방법을 다룬다. 결측치 결측치(Missing Value)는 누락된 값, 비어 있는 값을 의미한다. 현장에서 만들어진 실제 데이터는 수집 과정에서 발생한 오류로 인해 결측치를 포함하고 있을 때가 많다. 결측치가 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 문제가 발생한다. 결측치 찾기 R에서는 결측치를 'NA'로 표기한다. 문자로 구성된 변수는 'NA'가 에 감싸진 형태로 출려된다. NA 앞뒤에 따옴표가 있다면 이는 영문자 "NA"를 의미한다. "is.na()"를 이용하면 데이터에 결측치가 들어 있는 지있는지 .. 2024. 1. 30.
반응형