분류 전체보기223 R 9. 텍스트 마이닝 서론 문자로 된 데이터에서 가치 있는 정보를 얻어 내는 텍스트 마이닝에 대해 알아보자. 텍스트 마이닝 문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법을 '텍스트 마이닝(Text mining)'이라고 한다. 텍스트 마이닝을 할 때 가장 먼저 하는 작업은 문장을 구성하는 어절들이 어떤 품사로 되어 있는지 파악하는 '형태소 분석(Morphology Analysis)'이다. 형태소 분석으로 어절들의 품사를 파악한 후 명사, 동사, 형용사 등 의미를 지닌 품사의 단어들을 추출해 각 단어가 얼마나 많이 등장했는지 확인한다. 텍스트 마이닝을 이용해 SNS나 웹 사이트에 올라온 글을 분석하면 사람들이 어떤 이야기를 나누고 있는지 파악할 수 있다. 힙합 음악 가사 'KoNLP(Korean Natural La.. 2024. 2. 2. R 8. 데이터 분석하기 서론 앞서 배운 내용을 토대로 데이터를 분석해 보자. 준비하기 '한국복지패널데이터'를 이용하여 실습을 해보자. 한국복지패널데이터는 한국보건사회연구원에서 가구의 경제활동을 연구해 정책 지원에 반영할 목적으로 발간하는 조사 자료이다. 2006년부터 매년 7000 가구를 대상으로 조사한 자료로, 경제활동, 생활실태, 복지욕구 등 천여 개 변수로 구성되어 있다. 복지패널데이터는 엄밀한 절차로 수집되었고, 다양한 변수를 담고 있기에 연습하기 좋은 재료이다. 이를 통해 한국인의 삶을 살펴보자. 아래 예시는 2016년에 발간된 2015년의 한국인의 삶 데이터이다. 데이터 준비 깃헙에서 다운로드할 시 'Koweps_hpc10_2015_beta1.sav'파일을 다운하여 프로젝트 폴더에 삽입하면 된다. 직접 한국복지패널 .. 2024. 2. 1. 시간 순삭 스팀 오픈월드 게임 추천 서론 "젤다의 전설:야생의 숨결" 이후 유행하고 있는 자유도가 높고 광활한 월드를 탐험하는 오픈월드 게임을 추천한다. 단, 오픈월드 게임은 대체로 사양이 높다는 것을 유의바란다. 엘든링(Elden Ring) 64,500원, 한국어 지원 다크 판타지 소울라이크를 오픈월드에서 즐길 수 있는 게임이다. 오픈 월드임에도 소울라이크의 분위기와 전투 승리의 쾌감을 유지한 체 오픈월드의 이동, 탐색의 재미를 잃지 않았다. 난이도가 어려운 게임을 좋아하고 피지컬에 자신이 있거나, 다크 판타지 세계관을 좋아하면 추천한다. Red Dead Redemption 2 66,000원, 한국어 지원, 19금 서부 시대를 배경으로 한 GTA, 서부 어드벤쳐 오픈월드 게임이다. 스토리와 높은 자유도로 서부 시대의 낭만을 즐길 수 있는.. 2024. 1. 31. R 7. 그래프 만들기 서론 데이터를 쉽게 그림으로 표현한 것을 '그래프(Graph)'라고 한다. 데이터 원자료나 통계표는 수많은 숫자와 문자로 구성되어 있어서 의미를 파악하기 어렵다. 데이터를 그래프로 표현하면 추세와 경향성이 드러나기 때문에 특징을 쉽게 이해할 수 있다. 이번에는 앞서 데이터를 파악하고, 가공하고, 정제한 데이터를 가지고 그래프를 만들어보자. 산점도 데이터를 x축과 y축에 점으로 표현한 그래프를 '산점도(Scatter Plot)'라고 한다. 산점도는 나이와 소득처럼 연속 값으로 된 두 변수의 관계를 표현할 때 사용한다. ggplot2 문법은 레이어(layer) 구조로 되어 있다. 배경을 만들고(1 layer), 그 위에 그래프 형태를 그리고(2 layer), 마지막으로 축 범위, 색, 표식 등 설정을 추가하.. 2024. 1. 31. R 6. 데이터 정제하기 서론 현장에서 만들어진 실제 데이터는 오류를 포함하고 있기 때문에 분석하기 전에 오류를 수정해야 한다. 이 과정을 데이터 정제라고 부른다. 여기서는 대표적으로 결측치와 이상치를 찾고 제거하는 방법을 다룬다. 결측치 결측치(Missing Value)는 누락된 값, 비어 있는 값을 의미한다. 현장에서 만들어진 실제 데이터는 수집 과정에서 발생한 오류로 인해 결측치를 포함하고 있을 때가 많다. 결측치가 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 문제가 발생한다. 결측치 찾기 R에서는 결측치를 'NA'로 표기한다. 문자로 구성된 변수는 'NA'가 에 감싸진 형태로 출려된다. NA 앞뒤에 따옴표가 있다면 이는 영문자 "NA"를 의미한다. "is.na()"를 이용하면 데이터에 결측치가 들어 있는 지있는지 .. 2024. 1. 30. R 5. 데이터 가공하기 서론 주어진 데이터를 그대로 사용하기보다 원하는 형태로 변형해 분석하는 경우가 많다. 그렇기에 데이터 파악 이후 자신이 원하는 대로 데이터를 가공하는 시간을 갖는다. 데이터 전처리 분석에 적합하게 데이터를 가공하는 작업을 '데이터 전처리(Data Preprocessing)'라고 한다. 일부를 추출하거나, 종류별로 나누거나, 여러 데이터를 합치는 등 데이터를 자유롭게 가공할 수 있어야 목적에 맞게 분석할 수 있다. dplyr 함수 기능 filter() 행 추출 select() 열(변수) 추출 arrange() 정렬 mutate() 변수 추가 summaries() 통계치 산출 group_by() 집단별로 나누기 left_join() 데이터 합치기(열) bind_rows() 데이터 합치기(행) 데이터 추출 데.. 2024. 1. 29. R 4. 데이터 파악하기 서론 데이터 분석의 첫 단계 현재 내가 가진 데이터의 전반적인 구조 파악하는 일이다. 어떤 변수들이 있는지, 몇 행으로 구성되어 있는지 등을 알아보고 데이터의 특징에 대한 감을 잡는 과정이다. 이 과정에서 분석 방향에 대한 힌트를 얻게 된다. 데이터 파악하기 데이터를 파악할 때 기본적으로 사용하는 여섯 가지 함수 head(), tail(), View(), dim(), str(), summary()가 있다. 이 함수들에 대해 자세히 살펴보자. 더보기 exam 2024. 1. 27. R 3. 데이터 프레임 서론 데이터 분석 이전 데이터를 모으거나 받을 때 기본적이며 가장 많이 사용하는 형태인 데이터 프레임(Data Frame)에 대해 알아보자. 데이터 프레임 데이터 프레임은 행과 열로 구성된 표 형태의 데이터를 말한다. 일반적으로 세로로 나열되는 열은 속성을 나타내며 컬럼(Column) 혹은 변수(Variable)라고 불린다. 가로로 나열되는 행은 각 속성의 값을 지닌 정보를 보여주며 Row(로) 혹은 Case(케이스)라고 불린다. 이름 영어 점수 수학 점수 김지훈 90 50 이유진 80 60 박동현 60 100 ... ... ... 김민지 70 20 일반적으로 데이터가 크다라는 말은 행 또는 열이 많다라는 말이다. 행이 많다는 것은 분석해야 할 대상이 많은 것으로 컴퓨터의 성능을 높여 문제를 해결하거나 .. 2024. 1. 26. R 2. 데이터 분석 이전 기본 개념 서론 데이터 분석하는 데 필요한 기본 개념인 변수, 함수, 패키지를 R에서 사용하는 방법에 대해 알아보자. 변수 "변수(Variable)"란 값을 저장할 때 사용하는 식별자 혹은 데이터를 저장할 수 있는 메모리 공간으로 정의된다. 즉, 수학 시간에 배운 그 변수라고 생각하면 편하다. 사용하는 방법은 간단하다. 변수 이름과 " 2024. 1. 25. 이전 1 ··· 12 13 14 15 16 17 18 ··· 25 다음 반응형