본문 바로가기
프로그램

[R]프로그램 기초와 2020 스마트폰 과의존 예시 알아보기

by y은광 2024. 7. 15.
728x90

R은 통계 계산과 그래프 작성을 위한 프로그래밍 언어이자 소프트웨어 환경입니다. 빅데이터 분석, 데이터 시각화, 모델링 등 다양한 데이터 과학 작업에 강력한 도구를 제공합니다. R은 GNU GPL(General Public License)에 따라 무료로 배포되며, 다양한 운영체제에서 사용할 수 있습니다.

 

R로고
<R로고 출처 :위키백과>

 

 

R은 통계 계산과 그래프 작성을 위한 프로그래밍 언어이자 소프트웨어 환경입니다. 빅데이터 분석, 데이터 시각화, 모델링 등 다양한 데이터 과학 작업이 가능합니다. 이에 R의 주요 특징, R설치 방법, R프로그램 기초와 프로그램 실행예시, R의 응응분야를 알아보겠습니다.

1. R의 주요 특징

  • 풍부한 패키지 : R에는 CRAN(Comprehensive R Archive Network)에서 제공하는 수천 개의 패키지가 있어, 거의 모든 통계 분석 작업을 수행할 수 있습니다.
  • 강력한 시각화 도구 : ggplot2와 같은 패키지를 통해 고급 그래프를 쉽게 그릴 수 있습니다.
  • 통계 및 수학 함수 : 다양한 통계 및 수학 함수를 기본으로 제공하여 복잡한 계산을 간단하게 수행할 수 있습니다.
  • 데이터 처리 능력 : dplyr, data.table 등의 패키지를 통해 대규모 데이터셋을 효율적으로 처리할 수 있습니다.

2. R 설치 방법

윈도우즈 사용자 계정 확인(영문으로 계정이름 생성) 후 R을 설치하려면 CRAN 웹사이트에 접속하여 운영체제에 맞는 설치 파일을 다운로드 (java 환경도 설치) 하고 설치합니다.  설치 과정은 매우 간단하며, 기본 설정으로 진행하면 됩니다. 또한, R Studio라는 통합 개발 환경(IDE)을 설치하면 R 프로그래밍이 더욱 편리해집니다. R Studio는 코드 편집, 데이터 시각화, R 패키지(설치) 관리 등을 한곳에서 할 수 있게 도와줍니다. 마지막으로 R Studio의 Tools Global options에서 UTF-8로 설정합니다.

 

3. R프로그램 기초 예제

* 데이터 불러오기 

data <- read.csv("data.csv")

head(data)

 

* 데이터 요약 기본적인 데이터 요약 통계를 계산합니다

summary(data)

 

* 데이터 처리 dplyr 패키지를 사용한 데이터 처리 

dplyr 패키지 설치 및 로드

install.packages("dplyr")

library(dplyr)

 

* 데이터 필터링 및 요약

filtered.data <-  data %>%

filter(변수1 > 10) %>%

summarise(mean_value = mean(변수2, na.rm = TRUE))

print(filtered.data)

 

* data.table을 사용한 대규모 데이터 처리

data.table 로드

library(data.table)

 

data.table 변환

dt < - as.data.table(data)

 

* 데이터 필터링 및 요약

filtered_dt <- dt[변수1 10, .(mean_value = mean(변수2, na.rm = TRUE))]

print(filtered_dt)

 

* Spark 연결 설정

sc <- spark_connect(master = "local")

 

* 데이터 불러오기

spark_data <- copy_to(sc, data, "spark_data". overwrite = TRUE)

 

* 데이터 필터링 및 요약

filtered_spark_data <- spark_data %>% filter(변수1 > 10) %>%

summarise(mean_value = mean(변수2, na.rm = TRUE))

print(filtered_spark_data)

 

* Spark 연결 종료

spark_disconnect(sc)

 

* 데이터 시각화 ggplot2 패키지를 사용한 데이터 시각화

install.packages("ggplot2")

libray(ggplot2)

 

* 산점도 그리기 

ggplot(data, aes(x=변수1, y=변수2)) +

geom_point() +

labs(title="산점도 예제", x ="변수1", y="변수2")

 

4. R 프로그램 실행 예시

다음은 필자가 예시로 국가통계포털 자료인 2020년 스마트폰 과의존 데이터를 활용한 R분석입니다. 연령별 스마트폰 과의존 교육 관련 환경자료를 정제한 자료로 나온 결과입니다. [2020_스마트폰 과의존데이터.csv 파일 출처: KOSIS]

 

r프로그램1
<R프로그램 입력 출처 : y은광>

 

 

r프로그램2
<summary 결과와 환경 출처 : y은광>

 

 

r프로그램3
<연령별 박스플롯과 영유아 스마트폰 점그래프 출처 : y은광>

 

 

r프로그램4
<연령별 스마트폰 의존도 막대그래프 출처 : y은광>

 

 

r프로그램5
<자료 응답 패턴 분석과 코드 출처 : y은광>

 

 

5. R의 응용 분야

R은 다양한 분야에서 응용될 수 있습니다. 주요 응용 분야는 다음과 같습니다.

  • 통계 분석 : 다양한 통계 모델링 기법을 사용하여 데이터를 분석하고 인사이트를 도출할 수 있습니다.
  • 데이터 시각화 : 복잡한 데이터를 시각적으로 표현하여 이해하기 쉽게 만들 수 있습니다.
  • 머신러닝 : 다양한 머신러닝 알고리즘을 구현하고, 모델 학습 및 평가를 수행할 수 있습니다.
  • 생물정보학 : 유전자 데이터 분석, 단백질 구조 예측 등 생물정보학 분야에서도 널리 사용됩니다.
  • 금융 분석 : 금융 데이터 분석, 리스크 관리, 포트폴리오 최적화 등 다양한 금융 분야에 적용할 수 있습니다.

 

6. 결론

 

R은 빅데이터 분석에 최적화된 프로그래밍 언어이자 다양한 패키지를 통해 데이터 처리, 시각화, 모델링 등 복잡한 작업을 효율적으로 수행할 수 있습니다. R프로그램은 여러 산업 분야에서 큰 가치를 제공하며, 데이터 과학자들에게 필수적인 도구로 자리 잡고 있습니다. R의 설치 및 사용 방법을 이해하기 쉽고 다양한 패키지를 활용하여, 빅데이터 분석 작업을 더욱 효율적으로 수행할 수 있습니다. 또한 데이터 과학과 AI 교육에 널리 사용되며, 관련된 온라인 코스, 책, 강의 자료가 풍부하여 학습에 도움이 됩니다. R은 AI 연구와 응용에 있어 매우 유용하며, AI 기술을 배우고 적용하면 데이터 과학 및 AI 프로젝트에서 큰 성과를 얻을 수 있을 것입니다.

 

감사합니다.

 

출처 : KOSIS국가통계포털 (스마트폰 과의존위험군)