본문 바로가기
ADsP

ADsP 3과목 데이터분석 정리 (1)

by ADELA_J 2023. 8. 18.

<왜도>

<상자그림>

- 최댓값 : Q3 + 1.5(Q3-Q1), 최솟값: Q1 - 1.5(Q3-Q1)

- 사분위수 범위 = Q3 - Q1

- IQR 의 크기가 클수록 분산이 크다

 

<이상값 검색>

- ESD 알고리즘은 평균으로부터 3*표준편차만큼 떨어져 있는 값들을 이상값으로 판단한다.

 

<표본추출방법>

- 확률적 추출

 > 단순무작위추출 : 제비뽑기

 > 계층 추출 : 일정간격으로 다음 표본 선택

 > 층화추출 : 성격에 따라 몇 개의 집단 또는 층으로 나누고, 각 집단 내에서 원하는 크기의 표본을 무작위로 추출

 > 군집추출 : 특성에 따라 여러개의 집단(cluster)으로 나눈다. 이들 집단 중 몇 개를 선택한 후, 선택된 집단 내에서 필요한 만큼의 표본을 임의로 선택

 

<자료의 종류>

- 척도 : 측정을 위해 부여한 숫자들 간의 관계를 의미

 > 명목척도 : 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적으로 숫자를 부여 ex성별

 > 서열(순위)척도 : 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없다. ex. 선호순위

 > 등간척도(구간척도) : 순위 사이의 간격이 동일하여 양적인 비교가 가능. 절대 0점이 존재하지 않는다.

 > 비율척도 : 절대 0점이 존재하여 측정값 사이의 비율 계산이 가능한 척도이다

 

<조건부확률> 

- 다른 어떤 사상이 발생했다는 조건 하에 특정 사상이 발생할 확률 

<베이즈 정리>

 

<확률분포의 유형>

- 이산확률분포 : 

 > 이항분포 :베르누이 실험 또는 시행에 기초, 확률실험을 몇 번 실행하여 어떤 한가지 결과가 나오는 수를 변수값으로 부여할때 이변수를 이항확률변수. 이러한 이항확률변수와 관련된 확률분포를 이항확률분포

 > 포아송분포(★) : 단위 시간당 또는 단위 공간당 사건발생횟수에 적용되는 분포

 > 기하분포, 초기하 분포, 음이항분포

- X가 확률분포 f(x)를 갖는 확률변수, 기댓값. x가 이산적 확률변수 기댓값-> 시그마 xf(X)

 > 연속적 확률변수 기대값 -> 적분 xf(x)

 

<검정의 오류>

- 주어는 귀무가설

통계적 결정 / 실제상황 H0가 사실 H0가 허위
H0 채택  옳은 결정
(신뢰수준) = 1 - α
제 2종 오류
확률 = β
H0 기각 제 1종 오류
확률  = α
옳은 결정
검정력 = 1- β

- 제1종오류 : 귀무가설 H0가 실제로는 사실이어서 채택해야 함에도 불구하고 이를 거부하는 오류

- 제2종오류 : 귀무가설 H0가 실제로는 허위라서 거부해야 함에도 채택하는 오류

- 검정력(power of test) : (1-β), 거짓인 귀무가설을 기각하는 확률

- 치명적인 제1종오류(α)를 고정해놓고 주로 함. 

- 귀무가설을 채택하느냐 기각하느냐에 따라 반드시 (α+β)만큼 오차가 발생함.

- 제1종,2종 오류는 작을수록 좋지만 표본크기가 일정한 경우에는 동시에 감소시킬 수 없다. 

 

<회귀모형에 대한 가정>

- 선형성 : 독립변수의 변화에 따라 종속변수도 변화하는 선형인 모형

- 독립성 : 잔차와 독립변수의 값이 관련되어 있지 않다.

- 등분산성 : 오차항들의 분포는 동일한 분산을 갖는다.

- 비상관성 : 잔차들끼리 상관이 없어야 한다.

- 정상성 : 잔차항이 정규분포를 이뤄야 한다.

 

* 잔차 : 표본으로 추정한 회귀식(모회귀선) 과 실제 관측값의 차이를 말한다.

 

<R에서 다중회귀분석 결과 해석 방법>

https://freshrimpsushi.github.io/posts/how-to-interpret-multiple-regression-summary-in-r/

1. 잔차의 기초 통계량 : 모형이 데이터를 잘 적합하고 있는지 확인 가능

2. 비표준화계수

3. 표준오차

4. t value: 절대값의 크기는 독립 변수들간에 종속변수에 영향력의 상대적 크기를 의미. (독립변수와 종속변수간의 선형성의 강도를 의미), 수식: 회귀계수/표준오차. 회귀계수들이 유의미한가? 회귀계수의 t값과 유의확률로 확인.

5. 유의확률과 유의수준 비교해서 개별 변수의 통계적 유의성 판단

6. 결정계수값. 이걸 통해 독립변수가 종속변수의 설명력을 파악. 0~1인데, 1에 가까울수록 잘 설명하고 있다.

7. F통계량값과 유의확률을 통해 회귀모형과 유의성을 검정. 모형이 통계적으로 유의미한가? 확인. 0.05보다 작으면 통계적으로 유의하다. 

 

<잔차분석을 통한 회귀분석의 모형 가정>

- 모집단을 알수없기 때문에 잔차항의 검토를 통해서 오차항의 가중조건을 확인해볼 수 있다.

- 회귀분석의 첫 단계는 산점도를 이용하여 두 변수의 대략적인 관계를 파악하는 것이다.

- 이때 직선관계로 그 관계를 설명할 수 있을 것으로 판단하면 잔차(Residual)의 선형성, 등분산성, 독립성, 정규성 등을 검토하게 된다.

- 이와 같이 잔차를 이용하여 가정을 검토하는 과정을 잔차분석이라 한다.

1. 독립성 : 더빗왓슨값의 유의확률 > 0.05면 잔차에 유의미한 자기상관이 없다고 한다.

2. 정규성 : NOrmal Q_Q잔차가 정규분포를 잘 따르고 있는지를 확인. 잔차들이 그래프 선상에 있어야 이상적. 샤피로뭐시

3. 등분산성 

 

<단계적 변수 선택 > 차원축소 방법. 예측치 향상될것이다.

- 전진선택법(Forward Selection) : 중요하다고 생각되는 설명변수부터 차례로 모형에 추가. 한번 추가된 변수는 제거할 수 없음

- 후진제거법(Backward Elimination) : 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 의상 유의하지 않는 변수가 없을 때까지 설명변수를 제거하고 이때의 모형을 선태기. 한번 제거된 변수는 추가할 수 없다.

- 단계별방법(Stepwise method) : 전진+후진, 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더이상없을때 중단

 

<정규화 선형회귀 모형>

- L2는 릿지... Ridge...

- L1은 라쏘.... Lasso...

 

<상관분석 - 상관계수>

1. 공분산

 - 두 변수 사이의 상관성을 나타내 주는 지표.

 - 양수면 특정한 변수가 증가할 때 증가. 음수는 특정한 변수가 증가할때 감소

- 두 변수가 독립이면 공분산은 O > 그렇다고 O이라고 무조건 독립관계라 할 수 없다.

- 측정단위는 - 무한대 ~ 무한대  : 이를 표준화한것이 상관계수. -1~1

 

피어슨의 상관계수 스피어만의 상관계수
- 두 변수 간의 선형 관계 측정
- 연속형 변수만 가능
- 등간 비율척도
- r(상관계쑤) 값이 0에 가까울수록 상관관계까 약하고 +-1에 가까울수록 강한 상관관계

- 두 변수 간의 비선형적 관계 측정
- 연속형은 물론 순서형도 가능
-이산형, 순서형 데이터 적용 가능
- 1은 한쪽의 순위가 증가함에 따라 다른쪽 순위도 증가
 -1은 한쪽의 순위가 증가할때 다른쪽은 감소
 0은 한쪽의 순위 증가가 다른쪽엔 연관이 없음.

 

<주성분 분석의 결정기준>

- 차원 감소 기법 중 하나

- 성분들이 설명하는 분석의 비율 : 총 70~90% 사이가 되는 주성분의 개수를 선택

- 고유값. 고유값이 1보다 큰 주성분만 사용. 해당 데이터 분산크기가 크면 클수록 1주성분

- Scree Plot. 고유값이 가장 큰 값에서 가장 작은 값은 순서로 정렬. 감소가 급격하게 줄어들어 주성분의 개수를 늘릴 때 얻게되는 정보의 양이 상대적으로 미미한 지점에서 주성분의 개수를 정함. 

- R에서 summary했을때 나오는 Comp.1~Comp.4와 4개의 주성분의 표준편차, 분산비율, 누적비율을 보여줌

 > Standard deviation(표준편차), Proportion of Variance(분산비율), Cumulative Proportion(누적비율)

  > 만약 첫번째 주성분 하나가 전체 분산의 62%라면 첫번째 주성분 분석만 수용했을 때 정보 손실은 100-62=38%

- 주성분 분석은 비지도 학습으로 데이터의 구조와 패턴을 통해 이상치를 탐색 및 탐지에 사용한다. 주성분 분석은 목표변수를 고려하여 목표변수를 잘 예측 또는 분류할 수 있는 선형결합으로 이루어진 몇 개의 주성분을 찾아내기 위함이다. 따라서 주성분 분석 자체가 최종 목적이 아니라 다른 통계적 분석을 하기 위한 사전 기초 분석에 사용한다. 

 

<시계열 예측 - 정상성>

- 시계열의 수준과 분산에 체계적인 변화가 없고 엄밀하게 주기적 변동이 없다는 것으로, 미래는 확률적으로 과거와 동일하다는 것을 뜻함.

- 정상성은 3가지 조건을 모두 만족해야한다.

 1. 평균값은 시간 t에 관계없이 일정

 2. 분산값은 시간 t에 관계없이 일정

3. 공분산은 시간 t에 의존하지 않고 오직 시차에만 의존한다.

 

<비정상 시계열을 정상시계열로 전환하는 방법>

- 시계열의 평균이 일정하지 않은 경우 : 원시계열에 차분 (현 시점에 - 바로 전 시점 자료값)

- 계절성을 갖는 비정상시계열 : 계절차분

- 분산이 일정하지 않은 경우 : 원계열에 자연로그(변환)을 취하면됨

 

<평활법>

- 불규칙적인 변동을 제거하는 방법

- 이동평균 : 일정한 기간의 자료를 평균을 계산하고 다음 기간의 추세를 예측. 시계열 자료에서 계절변동과 불규칙변동을 제거하여 추세변동과 순환변동만 갖는 시계열로 변환.

- 지수평활법 : 전체 시계열 자료를 이용해 평균을 구하고, 최근 시계열에 더 큰 가중치를 적용하는 방법

 

<ARIMA모형법, 자기회귀 누적이동평균모>

- ARIMA(p,d,q) -> p:AR모형, d:차수, q: ma 모형차수 (d=0이면 ARMA(p,q)모형이라고 식별한다)

- 비정상성을 가진 시계열 모형

 

<백색잡음(White Noise)>

- 분석대상 시계열 자료에 대하여 분석 모형이 잘 적합될 경우, 그 잔차는 독립적인 임의의 확률변수가 된다. 이것을 백색잡음

- 서로 독립이며, 평균이 0이고, 분산이 일정한 값이여야 한다.

 

<분해시계열>

- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법

1. 추세요인 : 어떤 특정한 형태를 취할 때 Trend factor.

2. 계절요인 : 계절에 따라 고정된 주기에 따라 자료가 변화할 경우 Seasonal factor

3. 순환요인 : 명백한 경제적이나 자연적인 이유가 없이 알려지지 않은 주기를 가지고 자료가 변화할때 Cyclical factor

4. 불규칙 요인 : 회귀분석에서 오차에 해당하는 요인을 Irregular factor

 

'ADsP' 카테고리의 다른 글

ADsP 38회 합격 후기  (0) 2023.11.15
ADsP 3과목 데이터분석 정리(2)  (0) 2023.08.19
ADsP 2과목 데이터 분석 기획 정리  (0) 2023.08.18
ADsP 1과목 데이터 이해 정리  (1) 2023.08.17
ADsP 31회 기출문제 정리  (0) 2023.08.16