R의 기초

<R의 화면>

- 왼쪽 위 : Script / source 창, 언어를 작성할 수 있는 창

- 오른쪽 위 : console 창, 실행 화면이 나오는 곳

- 왼쪽 아래 : HIstory/Environment, 지금까지 한 기록들 / 현재 실행중인 변수/함수/데이터 셋의 정보

- 오른쪽 아래 : Files / Plots, 탐색기 / 시각화할때 그래프가 나오는 곳

<R의 기본 사용법>

1. # : 주석

2. Ctrl+Enter : 명령어 실행 / 두 줄 이상이면 블록 잡고 실행 / RUN 버튼 ( 실행하는 방법은 3가지)

3. 대소문자 구별한다

4. ? / Help : 도움말 보기

<R패키지 사용하기>

- 함수, 데이터, 코드, 문서 등을 묶은 것을 의미

- 오픈 소스 프로그램으로 다양한 기능이 패키지 존재

- install.packages("패키지 이름") : 패키지를 설치한다.

- library(패키지 이름): 패키지를 로드해서 사용할 준비를 한다.

<산점도 그래프>

x가 증가할때 y가 증가하는것 > 양의 관계

x가 증가할때 y가 감소하는 것 > 음의 관계

서로 아무런 관련 없이 모여있을때 > 상관관계

<산점도 행렬>

- pairs() 함수.

- 여러가지 변수들에 대해서 각각의 산점도를 한눈에 살펴볼 수 있도록 확장된 산점도 행렬

main= 제목 / pch = 점의 모양 / bg = species에 따른 다른 색상 부여

<히스토그램>

-데이터가 어디로 치우쳐있는지 볼 수 있는 프로그램.

> 아래 그래프는 오른쪽 꼬리분표를 가지고 있는 히스토그램.

- summary() 기초통계 알수있는

평균이 중앙값보다 클 때 > 오른쪽 꼬리분표를 가지고 있는 히스토그램이 나타남

-> 가설검정할때는 문제가 있는 데이터다 > 데이터 전처리가 필요한 데이터.

<상자그림>

- 최솟값, 제 1사분위수(Q1), 중앙값, 제 3사분위수(Q3), 최댓값(상한값)을 보여주는 그래프

- 상자의 맨 아래는 Q1, 중간 선(가로지르는)은 Q2(중앙값, 선위 위치가 치우쳐있는 쪽으로 치우친 분포), 맨 위는 Q3.

- Q3 - Q1 =IQR, 사분위수 범위. 클수록 분산이 크다는 것.

- 상자의 점선을 따라 맨 밑 선은 최솟값(하한값) Q1 - 1.5(IQR),

- 점선을 따라 위에 선은 최댓값 Q3 + 1.5(IQR).

- 정상 범위 밖에 존재하는 값, 이상치. 특이값. outlier

- 데이터분포를 시각화함.

2.2 -> 하한값(최솟값)

4.0-> 최댓값(상한값)

2.8 -> Q1

3.3 -> Q3

3.0 -> 중앙값

<모자이크 플롯>

- 범주형 다변량 데이터를 표현하는데 적합한 그래프

- 사각형의 넓이가 각 범주에 속한 데이터의 수에 해당.

▶ crew의 사각형이 제일 큼 = 사람이 젤 많다

▶ Crew의 No 크기도 젤 큼 = Crew의 사망자 수가 젤 많다.

저작자표시 비영리 변경금지 (새창열림)

'데이터베이스 > MongoDB & R' 카테고리의 다른 글

0609 몽고 DB 연습문제3 (0)	2023.06.09
0609 몽고DB 연습문제2 (0)	2023.06.09
6/9 몽고DB 연습문제 01 (0)	2023.06.09
mongodb (0)	2023.05.25

공부하고있슴다

R의 기초

'데이터베이스 > MongoDB & R' 카테고리의 다른 글

티스토리툴바

R의 기초

'데이터베이스 > MongoDB & R' 카테고리의 다른 글

관련글

티스토리툴바