본문 바로가기

r14

R 5. 데이터 가공하기 서론 주어진 데이터를 그대로 사용하기보다 원하는 형태로 변형해 분석하는 경우가 많다. 그렇기에 데이터 파악 이후 자신이 원하는 대로 데이터를 가공하는 시간을 갖는다. 데이터 전처리 분석에 적합하게 데이터를 가공하는 작업을 '데이터 전처리(Data Preprocessing)'라고 한다. 일부를 추출하거나, 종류별로 나누거나, 여러 데이터를 합치는 등 데이터를 자유롭게 가공할 수 있어야 목적에 맞게 분석할 수 있다. dplyr 함수 기능 filter() 행 추출 select() 열(변수) 추출 arrange() 정렬 mutate() 변수 추가 summaries() 통계치 산출 group_by() 집단별로 나누기 left_join() 데이터 합치기(열) bind_rows() 데이터 합치기(행) 데이터 추출 데.. 2024. 1. 29.
R 4. 데이터 파악하기 서론 데이터 분석의 첫 단계 현재 내가 가진 데이터의 전반적인 구조 파악하는 일이다. 어떤 변수들이 있는지, 몇 행으로 구성되어 있는지 등을 알아보고 데이터의 특징에 대한 감을 잡는 과정이다. 이 과정에서 분석 방향에 대한 힌트를 얻게 된다. 데이터 파악하기 데이터를 파악할 때 기본적으로 사용하는 여섯 가지 함수 head(), tail(), View(), dim(), str(), summary()가 있다. 이 함수들에 대해 자세히 살펴보자. 더보기 exam 2024. 1. 27.
R 3. 데이터 프레임 서론 데이터 분석 이전 데이터를 모으거나 받을 때 기본적이며 가장 많이 사용하는 형태인 데이터 프레임(Data Frame)에 대해 알아보자. 데이터 프레임 데이터 프레임은 행과 열로 구성된 표 형태의 데이터를 말한다. 일반적으로 세로로 나열되는 열은 속성을 나타내며 컬럼(Column) 혹은 변수(Variable)라고 불린다. 가로로 나열되는 행은 각 속성의 값을 지닌 정보를 보여주며 Row(로) 혹은 Case(케이스)라고 불린다. 이름 영어 점수 수학 점수 김지훈 90 50 이유진 80 60 박동현 60 100 ... ... ... 김민지 70 20 일반적으로 데이터가 크다라는 말은 행 또는 열이 많다라는 말이다. 행이 많다는 것은 분석해야 할 대상이 많은 것으로 컴퓨터의 성능을 높여 문제를 해결하거나 .. 2024. 1. 26.
R 2. 데이터 분석 이전 기본 개념 서론 데이터 분석하는 데 필요한 기본 개념인 변수, 함수, 패키지를 R에서 사용하는 방법에 대해 알아보자. 변수 "변수(Variable)"란 값을 저장할 때 사용하는 식별자 혹은 데이터를 저장할 수 있는 메모리 공간으로 정의된다. 즉, 수학 시간에 배운 그 변수라고 생각하면 편하다. 사용하는 방법은 간단하다. 변수 이름과 " 2024. 1. 25.
R 1. R 들어가기 앞서 서론 R은 통계 분석 및 데이터 시각화를 위한 프로그래밍 언어 및 환경이다. R은 오픈 소스로 개발되어 있으며, 특히 통계학자, 데이터 분석가, 연구자 및 데이터 과학자들 사이에서 널리 사용되고 있다. R 소개 특징 장점 풍부한 패키지 생태계: CRAN을 비롯한 패키지 생태계가 풍부하며, 다양한 분야에서 사용할 수 있는 패키지들이 제공된다. 이는 R을 다양한 분야의 문제에 대응할 수 있도록 확장 가능하게 만든다. 통계 및 그래픽 기능: R은 통계 분석 및 데이터 시각화에 강점이 있다. 다양한 통계적 기법과 그래픽 기능을 활용하여 데이터를 분석하고 시각화하는 데에 매우 효과적이다. 커뮤니티 지원: R은 활발한 사용자 및 개발자 커뮤니티를 가지고 있어서 다양한 문제에 대한 도움말과 자료를 얻을 수 있다. 데.. 2024. 1. 23.
반응형