<왜도>
<상자그림>
- 최댓값 : Q3 + 1.5(Q3-Q1), 최솟값: Q1 - 1.5(Q3-Q1)
- 사분위수 범위 = Q3 - Q1
- IQR 의 크기가 클수록 분산이 크다
<이상값 검색>
- ESD 알고리즘은 평균으로부터 3*표준편차만큼 떨어져 있는 값들을 이상값으로 판단한다.
<표본추출방법>
- 확률적 추출
> 단순무작위추출 : 제비뽑기
> 계층 추출 : 일정간격으로 다음 표본 선택
> 층화추출 : 성격에 따라 몇 개의 집단 또는 층으로 나누고, 각 집단 내에서 원하는 크기의 표본을 무작위로 추출
> 군집추출 : 특성에 따라 여러개의 집단(cluster)으로 나눈다. 이들 집단 중 몇 개를 선택한 후, 선택된 집단 내에서 필요한 만큼의 표본을 임의로 선택
<자료의 종류>
- 척도 : 측정을 위해 부여한 숫자들 간의 관계를 의미
> 명목척도 : 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적으로 숫자를 부여 ex성별
> 서열(순위)척도 : 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없다. ex. 선호순위
> 등간척도(구간척도) : 순위 사이의 간격이 동일하여 양적인 비교가 가능. 절대 0점이 존재하지 않는다.
> 비율척도 : 절대 0점이 존재하여 측정값 사이의 비율 계산이 가능한 척도이다
<조건부확률>
- 다른 어떤 사상이 발생했다는 조건 하에 특정 사상이 발생할 확률
<베이즈 정리>
<확률분포의 유형>
- 이산확률분포 :
> 이항분포 :베르누이 실험 또는 시행에 기초, 확률실험을 몇 번 실행하여 어떤 한가지 결과가 나오는 수를 변수값으로 부여할때 이변수를 이항확률변수. 이러한 이항확률변수와 관련된 확률분포를 이항확률분포
> 포아송분포(★) : 단위 시간당 또는 단위 공간당 사건발생횟수에 적용되는 분포
> 기하분포, 초기하 분포, 음이항분포
- X가 확률분포 f(x)를 갖는 확률변수, 기댓값. x가 이산적 확률변수 기댓값-> 시그마 xf(X)
> 연속적 확률변수 기대값 -> 적분 xf(x)
<검정의 오류>
- 주어는 귀무가설
통계적 결정 / 실제상황 | H0가 사실 | H0가 허위 |
H0 채택 | 옳은 결정 (신뢰수준) = 1 - α |
제 2종 오류 확률 = β |
H0 기각 | 제 1종 오류 확률 = α |
옳은 결정 검정력 = 1- β |
- 제1종오류 : 귀무가설 H0가 실제로는 사실이어서 채택해야 함에도 불구하고 이를 거부하는 오류
- 제2종오류 : 귀무가설 H0가 실제로는 허위라서 거부해야 함에도 채택하는 오류
- 검정력(power of test) : (1-β), 거짓인 귀무가설을 기각하는 확률
- 치명적인 제1종오류(α)를 고정해놓고 주로 함.
- 귀무가설을 채택하느냐 기각하느냐에 따라 반드시 (α+β)만큼 오차가 발생함.
- 제1종,2종 오류는 작을수록 좋지만 표본크기가 일정한 경우에는 동시에 감소시킬 수 없다.
<회귀모형에 대한 가정>
- 선형성 : 독립변수의 변화에 따라 종속변수도 변화하는 선형인 모형
- 독립성 : 잔차와 독립변수의 값이 관련되어 있지 않다.
- 등분산성 : 오차항들의 분포는 동일한 분산을 갖는다.
- 비상관성 : 잔차들끼리 상관이 없어야 한다.
- 정상성 : 잔차항이 정규분포를 이뤄야 한다.
* 잔차 : 표본으로 추정한 회귀식(모회귀선) 과 실제 관측값의 차이를 말한다.
<R에서 다중회귀분석 결과 해석 방법>
1. 잔차의 기초 통계량 : 모형이 데이터를 잘 적합하고 있는지 확인 가능
2. 비표준화계수
3. 표준오차
4. t value: 절대값의 크기는 독립 변수들간에 종속변수에 영향력의 상대적 크기를 의미. (독립변수와 종속변수간의 선형성의 강도를 의미), 수식: 회귀계수/표준오차. 회귀계수들이 유의미한가? 회귀계수의 t값과 유의확률로 확인.
5. 유의확률과 유의수준 비교해서 개별 변수의 통계적 유의성 판단
6. 결정계수값. 이걸 통해 독립변수가 종속변수의 설명력을 파악. 0~1인데, 1에 가까울수록 잘 설명하고 있다.
7. F통계량값과 유의확률을 통해 회귀모형과 유의성을 검정. 모형이 통계적으로 유의미한가? 확인. 0.05보다 작으면 통계적으로 유의하다.
<잔차분석을 통한 회귀분석의 모형 가정>
- 모집단을 알수없기 때문에 잔차항의 검토를 통해서 오차항의 가중조건을 확인해볼 수 있다.
- 회귀분석의 첫 단계는 산점도를 이용하여 두 변수의 대략적인 관계를 파악하는 것이다.
- 이때 직선관계로 그 관계를 설명할 수 있을 것으로 판단하면 잔차(Residual)의 선형성, 등분산성, 독립성, 정규성 등을 검토하게 된다.
- 이와 같이 잔차를 이용하여 가정을 검토하는 과정을 잔차분석이라 한다.
1. 독립성 : 더빗왓슨값의 유의확률 > 0.05면 잔차에 유의미한 자기상관이 없다고 한다.
2. 정규성 : NOrmal Q_Q잔차가 정규분포를 잘 따르고 있는지를 확인. 잔차들이 그래프 선상에 있어야 이상적. 샤피로뭐시
3. 등분산성
<단계적 변수 선택 > 차원축소 방법. 예측치 향상될것이다.
- 전진선택법(Forward Selection) : 중요하다고 생각되는 설명변수부터 차례로 모형에 추가. 한번 추가된 변수는 제거할 수 없음
- 후진제거법(Backward Elimination) : 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 의상 유의하지 않는 변수가 없을 때까지 설명변수를 제거하고 이때의 모형을 선태기. 한번 제거된 변수는 추가할 수 없다.
- 단계별방법(Stepwise method) : 전진+후진, 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더이상없을때 중단
<정규화 선형회귀 모형>
- L2는 릿지... Ridge...
- L1은 라쏘.... Lasso...
<상관분석 - 상관계수>
1. 공분산
- 두 변수 사이의 상관성을 나타내 주는 지표.
- 양수면 특정한 변수가 증가할 때 증가. 음수는 특정한 변수가 증가할때 감소
- 두 변수가 독립이면 공분산은 O > 그렇다고 O이라고 무조건 독립관계라 할 수 없다.
- 측정단위는 - 무한대 ~ 무한대 : 이를 표준화한것이 상관계수. -1~1
피어슨의 상관계수 | 스피어만의 상관계수 |
- 두 변수 간의 선형 관계 측정 - 연속형 변수만 가능 - 등간 비율척도 - r(상관계쑤) 값이 0에 가까울수록 상관관계까 약하고 +-1에 가까울수록 강한 상관관계 |
- 두 변수 간의 비선형적 관계 측정 - 연속형은 물론 순서형도 가능 -이산형, 순서형 데이터 적용 가능 - 1은 한쪽의 순위가 증가함에 따라 다른쪽 순위도 증가 -1은 한쪽의 순위가 증가할때 다른쪽은 감소 0은 한쪽의 순위 증가가 다른쪽엔 연관이 없음. |
<주성분 분석의 결정기준>
- 차원 감소 기법 중 하나
- 성분들이 설명하는 분석의 비율 : 총 70~90% 사이가 되는 주성분의 개수를 선택
- 고유값. 고유값이 1보다 큰 주성분만 사용. 해당 데이터 분산크기가 크면 클수록 1주성분
- Scree Plot. 고유값이 가장 큰 값에서 가장 작은 값은 순서로 정렬. 감소가 급격하게 줄어들어 주성분의 개수를 늘릴 때 얻게되는 정보의 양이 상대적으로 미미한 지점에서 주성분의 개수를 정함.
- R에서 summary했을때 나오는 Comp.1~Comp.4와 4개의 주성분의 표준편차, 분산비율, 누적비율을 보여줌
> Standard deviation(표준편차), Proportion of Variance(분산비율), Cumulative Proportion(누적비율)
> 만약 첫번째 주성분 하나가 전체 분산의 62%라면 첫번째 주성분 분석만 수용했을 때 정보 손실은 100-62=38%
- 주성분 분석은 비지도 학습으로 데이터의 구조와 패턴을 통해 이상치를 탐색 및 탐지에 사용한다. 주성분 분석은 목표변수를 고려하여 목표변수를 잘 예측 또는 분류할 수 있는 선형결합으로 이루어진 몇 개의 주성분을 찾아내기 위함이다. 따라서 주성분 분석 자체가 최종 목적이 아니라 다른 통계적 분석을 하기 위한 사전 기초 분석에 사용한다.
<시계열 예측 - 정상성>
- 시계열의 수준과 분산에 체계적인 변화가 없고 엄밀하게 주기적 변동이 없다는 것으로, 미래는 확률적으로 과거와 동일하다는 것을 뜻함.
- 정상성은 3가지 조건을 모두 만족해야한다.
1. 평균값은 시간 t에 관계없이 일정
2. 분산값은 시간 t에 관계없이 일정
3. 공분산은 시간 t에 의존하지 않고 오직 시차에만 의존한다.
<비정상 시계열을 정상시계열로 전환하는 방법>
- 시계열의 평균이 일정하지 않은 경우 : 원시계열에 차분 (현 시점에 - 바로 전 시점 자료값)
- 계절성을 갖는 비정상시계열 : 계절차분
- 분산이 일정하지 않은 경우 : 원계열에 자연로그(변환)을 취하면됨
<평활법>
- 불규칙적인 변동을 제거하는 방법
- 이동평균 : 일정한 기간의 자료를 평균을 계산하고 다음 기간의 추세를 예측. 시계열 자료에서 계절변동과 불규칙변동을 제거하여 추세변동과 순환변동만 갖는 시계열로 변환.
- 지수평활법 : 전체 시계열 자료를 이용해 평균을 구하고, 최근 시계열에 더 큰 가중치를 적용하는 방법
<ARIMA모형법, 자기회귀 누적이동평균모>
- ARIMA(p,d,q) -> p:AR모형, d:차수, q: ma 모형차수 (d=0이면 ARMA(p,q)모형이라고 식별한다)
- 비정상성을 가진 시계열 모형
<백색잡음(White Noise)>
- 분석대상 시계열 자료에 대하여 분석 모형이 잘 적합될 경우, 그 잔차는 독립적인 임의의 확률변수가 된다. 이것을 백색잡음
- 서로 독립이며, 평균이 0이고, 분산이 일정한 값이여야 한다.
<분해시계열>
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
1. 추세요인 : 어떤 특정한 형태를 취할 때 Trend factor.
2. 계절요인 : 계절에 따라 고정된 주기에 따라 자료가 변화할 경우 Seasonal factor
3. 순환요인 : 명백한 경제적이나 자연적인 이유가 없이 알려지지 않은 주기를 가지고 자료가 변화할때 Cyclical factor
4. 불규칙 요인 : 회귀분석에서 오차에 해당하는 요인을 Irregular factor
'ADsP' 카테고리의 다른 글
ADsP 38회 합격 후기 (0) | 2023.11.15 |
---|---|
ADsP 3과목 데이터분석 정리(2) (0) | 2023.08.19 |
ADsP 2과목 데이터 분석 기획 정리 (0) | 2023.08.18 |
ADsP 1과목 데이터 이해 정리 (1) | 2023.08.17 |
ADsP 31회 기출문제 정리 (0) | 2023.08.16 |