<R의 화면>

- 왼쪽 위 : Script / source 창, 언어를 작성할 수 있는 창
- 오른쪽 위 : console 창, 실행 화면이 나오는 곳
- 왼쪽 아래 : HIstory/Environment, 지금까지 한 기록들 / 현재 실행중인 변수/함수/데이터 셋의 정보
- 오른쪽 아래 : Files / Plots, 탐색기 / 시각화할때 그래프가 나오는 곳
<R의 기본 사용법>
1. # : 주석
2. Ctrl+Enter : 명령어 실행 / 두 줄 이상이면 블록 잡고 실행 / RUN 버튼 ( 실행하는 방법은 3가지)
3. 대소문자 구별한다
4. ? / Help : 도움말 보기
<R패키지 사용하기>
- 함수, 데이터, 코드, 문서 등을 묶은 것을 의미
- 오픈 소스 프로그램으로 다양한 기능이 패키지 존재
- install.packages("패키지 이름") : 패키지를 설치한다.
- library(패키지 이름): 패키지를 로드해서 사용할 준비를 한다.
<산점도 그래프>

x가 증가할때 y가 증가하는것 > 양의 관계
x가 증가할때 y가 감소하는 것 > 음의 관계
서로 아무런 관련 없이 모여있을때 > 상관관계
<산점도 행렬>
- pairs() 함수.
- 여러가지 변수들에 대해서 각각의 산점도를 한눈에 살펴볼 수 있도록 확장된 산점도 행렬
main= 제목 / pch = 점의 모양 / bg = species에 따른 다른 색상 부여

<히스토그램>
-데이터가 어디로 치우쳐있는지 볼 수 있는 프로그램.
> 아래 그래프는 오른쪽 꼬리분표를 가지고 있는 히스토그램.

- summary() 기초통계 알수있는
평균이 중앙값보다 클 때 > 오른쪽 꼬리분표를 가지고 있는 히스토그램이 나타남
-> 가설검정할때는 문제가 있는 데이터다 > 데이터 전처리가 필요한 데이터.

<상자그림>
- 최솟값, 제 1사분위수(Q1), 중앙값, 제 3사분위수(Q3), 최댓값(상한값)을 보여주는 그래프
- 상자의 맨 아래는 Q1, 중간 선(가로지르는)은 Q2(중앙값, 선위 위치가 치우쳐있는 쪽으로 치우친 분포), 맨 위는 Q3.
- Q3 - Q1 =IQR, 사분위수 범위. 클수록 분산이 크다는 것.
- 상자의 점선을 따라 맨 밑 선은 최솟값(하한값) Q1 - 1.5(IQR),
- 점선을 따라 위에 선은 최댓값 Q3 + 1.5(IQR).
- 정상 범위 밖에 존재하는 값, 이상치. 특이값. outlier
- 데이터분포를 시각화함.


2.2 -> 하한값(최솟값)
4.0-> 최댓값(상한값)
2.8 -> Q1
3.3 -> Q3
3.0 -> 중앙값
<모자이크 플롯>
- 범주형 다변량 데이터를 표현하는데 적합한 그래프
- 사각형의 넓이가 각 범주에 속한 데이터의 수에 해당.

▶ crew의 사각형이 제일 큼 = 사람이 젤 많다
▶ Crew의 No 크기도 젤 큼 = Crew의 사망자 수가 젤 많다.
'데이터베이스 > MongoDB & R' 카테고리의 다른 글
| 0609 몽고 DB 연습문제3 (0) | 2023.06.09 |
|---|---|
| 0609 몽고DB 연습문제2 (0) | 2023.06.09 |
| 6/9 몽고DB 연습문제 01 (0) | 2023.06.09 |
| mongodb (0) | 2023.05.25 |