본문 바로가기
ADsP

ADsP 3과목 데이터분석 정리(2)

by ADELA_J 2023. 8. 19.

<모형평가 기준>

- 일반화의 가능성 : 같은 모집단 내 다른 데이터에 적용할 때도 안정적인 결과를 제공하는 것을 의미. 데이터를 확장하여 적용할 수 있는지에 대한 평가 기준

- 효율성 : 분류분석 모형이 얼마나 효과적으로 구축되었는지를 평가하는 것. 적은 입력 변수를 필요로 할수록 효율성이 높다

- 예측과 분류의 정확성 : 구축된 모형의 정확성 측면에서 평가하는 것으로 안정적이고 효율적인 모형을 구축하였다하더라도 실제 문제에 적용했을 때 정확하지 못한 결과만을 양산한다면 그 모형은 의미를 가질 수 없다.

 

<교차검증 Cross Validation>

- training, validation, test dataset으로 나누어 모형의 성과를 검증

- 과적합(Overfitting)문제를 해결하고 잘못된 가설을 가정하게 되는 제 2종 오류의 발생을 방지할 수 있음.

 

<교차검증 데이터 구분>

학습데이터
training data
훈련용데이터, 분류기를 만들때, 데이터 마이닝의 모델을 학습할때
검증(검정)데이터
validation data
과대추정, 과소추정을 미세조정하는데 활용.
분류기의 파라미터 값을 최적화하기 위해 사용하는 데이터
평가(시험)데이터
test data
모형의 구축과 성관없는 외부데이터, 성능을 검증하기 위한 데이터

 

<홀드 아웃 Hold-Out>

- 원천 데이터를 랜덤하게 두 분류로 분리하여 교차검정을 실시하는 방법. 

- 하나는 훈련용 / 하나는 검증용자료로

- 일반적으로 전체 데이터 중 70%는 훈련용, 나머지는 검증용

- 검증용은 성과 측정만을 위하여 사용

..... train_test_split..?

 

<k-fold 교차검증 k-fold cross validation>

- 주어진 데이터를 가지고 반복적으로 성과를 측정하여 그 결과를 평균한 것

- 동일한 k개의 하부집합(subset)으로 나누고 k번째 하부집합을 검증용 자료로 나머지 k-1개의 하부집합을 훈련용으로, k번 반복. 반복측정. 평균값 최종 평가. 일반적으로는 10-fold

 

<붓스트랩 Bootstrap>

- 단순 랜덤 복원추출 방법을 활용하여 동일한 표본의 크기의 표본을 여러개생성하는 복원추출법

- k-fold 교차검증과유사하나(평가반복하는점) 훈련용 자료를 반복 재산정한다는 점에서 다름

- 데이터 양이 크지 않을 때 좋음

- 샘플에 한 번도 선택되지 않은 확률은 36.8%가 해당됨

- 한번도 포함되지 않은 건 평가용으로

 

<ROC그래프, Receiver Operating Characteristic>

- 두 분류분석 모형의 결과를 시각화할 수 있음.

- x축에는 FP ratio(1-특이도), y축에는 민감도 나타내어 모형을 평가할수있따.

- 모두 1인 경우에는 모두 True로 분류된 경우. 모두 0인 경우는 False

 > x축은 0, y축은 1의 값을 보여 AUC가 1로 도출되는 : 가장 이상적으로 완벽한 분류의 모형

- 밑부분 면적(Area Under the ROC curve, AUC)이 넓을수록 좋은 모형으로 평가. 0.5~1 범위를 가짐

 

<이익도표>

- 이익(Gain)은 목표 범주에 속하는 개체들이 각 등급에 얼마나 분포하고 있는지 나타내는 값

- 해당 등급에 따라 계산된 이익값을 누적으로 연결한 도표

- 분류분석 모형을 사용하여 분류된 관측치가 각 등급별로 얼마나 포함되는지를 나타내는 도표

 

<향상도 곡선 Lift Curve >

- 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프

- 상위등급에서 향상도가 매우크고 하위 등급으로 갈수록 감소하게 됨

 > 일반적으로 예측력이 적절하지만 등급에 관계없이 향상도가 차이가 없으면 모형의 예측력이 좋지 않음

 

<로지스틱 회귀모형>

- 반응변수가 범주형인 경우에 적용되는 회귀분석 모형

- ex . 성공/실패, 흡연/비흡연, 생존/사망 등

- 2가지 범주로 되어있을 때 종속, 독립 변수간의 관계식을 이용하여 두 집단을 분류하고자 할 경우 사용되는 통계기법

 

<로짓변환>

- 반응변수가 범주형이므로 선형회귀 방식으로 fitting 하기 어렵다.

- 곡선에서 직선으로 fitting 하기 위해서 사용하는 것이 오즈에 로그를 취하는 로짓 변환

- y를 log(p/1-p)로 만드는 함수적 변환을 말함.

- 단순 로지스틱인 경우 로지스틱 회귀계수 β₁이 9보다 큰 경우에는 S자, 0보다 작은 경우에는 역 S자 모양을 가진다

 > 이것이 시그모이드 함수

- 누적함수는 곧 성공의 확률, 이는 분류 목적으로 사용될 경우 0.5보다 크면 Y=1집단으로 작으면 Y=0집단으로 분류된다

 

<선형회귀분석 vs 로지스틱 회귀분석 비교>

  일반선형 회귀분석 로지스틱 회귀분석
종속변수 연속형 변수 이산형 변수
모형 탐색 방법 최소자승법 최대 우도법, 가중최소자승법
모형검정  F-test, t-test x²test

 

<인공신경망의 종류 - 단층퍼셉트론(퍼셉트론)>

- 단층이라 입력층(input layer), 출력층(output layer)로만 구성된다. (히든레이어없다)

- 학습벡터or입력벡터가 입력되는 계층으로 입력된 데이터는 출력으로 전달되어 활성함수에 따라 값이 출력된다.

 

<인경신경망 - 가중치 weight>

- 퍼셉트론의 학습목표는 학습 벡터를 두 부류로 선형 분류하기 위한 선형 경계를 찾는 것이다. 가중치는 이러한 선형 경계의 방향성 또는 형태를 나타내는 값이다.

 

<인경신경망 - 바이어스 bias>

- 선형 경계의 절편을 나타내는 값으로써, 직선의 경우 y절편을 나타낸다.

 

*이해를 돕기 위해... net값 : 입력값/가중치의 곱을 모두합한 값.

*활성함수 : net값이 임계치보다 크면 1을 출력, 작으면 0을 출력

 

<단층 퍼셉트론의 XOR 문제>

- AND랑 OR 게이트는 직선을 그어 결괏값이 검은점을 구별할 수 있찌만 XOR은 안되었음. 

 >>> 이를 해결한 것이 다층 퍼셉트론

 

<다층퍼센트론>

 - 하나 이상의 은닉층을 두어 비선형적으로 분리되는 데이터에 대해 학습이 가능한 퍼셉트론

- 목푯값과 출력값을 직접 비교가 불가능해서 이를 해결하기 위한 방법이 역전파 알고리즘.

 

<역전파 알고리즘 Backpropagation>

- 손실함수 : 신경망에 훈련데이터 x를 투입하고 실제출력, 기대출력간의 차이

 > 훈련데이터를 이용해 가중치(w)와 바이어스(b)를 변화시키는 과정을 반복적으로 수행해 손실함수가 최소값이 되도록 하는것이 인공신경망의 학습목표

 - 그래서 출력에서 생긴 오차를 반대로 입력 쪽으로 전파해서 가중치랑 바이어스를 갱신하게 되면 훈련데이터에 최적화된 가중치와 바이어스 값들을 얻을 수 있음

 > 역전파 : 출력부터 반대방향으로 순차적으로 편미분을 수행해가면서 가중치와 바이어스를 갱신한다는 의미

 

<활성함수 Activation Function>

-  입력신호의 총합을 출력신호로 변환하는 함수

- 데이터를 비선형으로 변화하기 위해서 사용

- 시그모이드 함수 : 로지스틱함수(2개 분류)라고 함. 완만한 곡선 형태. 0~1 사이의 값 출력

 > 소프트맥스 함수 : 목표값이 다 범주인 경우(3개 이상 분류). 입력받는 값을 정규화 한 후 0~1 출력. 노드의 출력값은 1

 >ReLU함수 : 시그모이드 함수의 기울기 소실문제가 발견되면서 사용. 입력값이 0보다 작으면 0, 0보다 크면 입력값 그대로 출력

 

<경사하강법 Gradient Descent Method>

- 기울기를 구하며 최적의 가중치와 바이어스를 구하는 방법 

- 일정 거리만큼 이동한다. (너무 크면 최적을 놓칠 수 있고, 너무 작으면 시간이 오래걸린다)

 

<기울기 소실문제 Vanishing Gradient Problem>

- 은닉층이 많아질수록 전달되는 오차가 크게 줄어 학습이 되지 않는 현상이 발생, 이를 기울기 소실문제

- 기울기가 거의 0이면 학습이 느려지고 학습이 다 되지 않은 상태에서 멈춤.

 

<의사결정나무 - 가지치기 Pruning>

- 모든 터미널 노드의 순도가 100%(불순도가 0)인 상태를 Full Tree

- 나무 크기 = 모형의 복잡도. 과적합 위험이 생길 수 있음. 

- 타당성이 없는 규칙을 제거함으로써 과적합을 방지하고 적합한 수준에서 터미널 노드를 결합해주는 것

 

<정지규칙>

- 더이상 트리의 분리가 일어나지 않게 하는 규칙

- 하지 않으면 각 끝마디가 Full Tree까지 성장하므로 과적합 발생 가능

 

<의사결정나무 모형의 분류>

1. 분류 나무 classification tree

 - 목표변수가 이산형인 경우

 - 분류 기준값 선택 방법 : 카이제곱통계량의 p값, 지니지수(CART), 엔트로피 지수

 * 지니지수 값이 클수록 이질적이며 순수도가 낮다고 볼 수 있음. 

 2. 회귀나무 regression tree

 - 목표변수가 연속형인 경우

 - F통계량의 p 값, 분산의 감소량(CART)

 

<의사결정나무의 장단점>

장점 구조단순 해석용이
유용한 입력 변수의 파악, 예측변수 간의 상호작용 및 비선형성을 고려하여 분석 가능
수학적 가정이 불필요한 비모수적 모형
계싼 비용이 낮아 대규모의 데이터 셋에서도 빠르게 연산 가능
수치형/범주형 변수 모두 사용가능
단점 분류 기준값의 경계선 부근의 자료값에 대해서는 오차가 큼
로지스틱회귀와 같이 각 예측변수의 효과 파악어려움
새로운 자료에 대한 예측 불안정

 

<앙상블 - 배깅>

- 원 데이터 집합으로부터 크기가 같은 표본을 여러번 단순임의복원추출하여 각 표본(붓스트랩표본)에 대해 분류를 생성한 후 그 결과를 앙상블하는 방법. 

 

<앙상블 - 부스팅>

- 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출. (약한 분류기에 가중치를 부여하여 강한 분류기를 만듦)

 

<앙상블-랜덤포레스트>

- 배깅에 랜덤과정을 추가한 방법. 

- 각 노드마다 모든 예측변수 안에서 최적의 분할(Split)을 선택하는 대신 예측 변수들을 임의로 추출하고, 추출된 변수 내에서 최적의 분할을 만들어 나가는 방법을 사용. 

 

<계층적 군집의 거리측정 방법>

- 단일연결볍(최단연결법) : 한 군집의 점과 다른 군집의 점 사이의 가장 짧은 거리. 사슬모양으로 생길 수 있으며, 고립된 군집을 찾는데 중점

- 와드연결법 : 군집 내의 오차제곱합에 기초하여 군집을 수행한다.

- 완전연결법 / 평균연결법 / 중심연결법

 

<계층적 군집의 거리>

- 유클리드 거리 : 두 점간 차를 제곱하여 모두 더한 값의 양의 제곱근

- 맨하튼 거리 : 시가(cith-block)거리라고도 불림. 두 점간차의 절댓값을 합한 값

 

-마할라노비스 거리 : 변수의 표준화와 함께 변수 간의 상관성(분포형태)을 동시에 고려한 통계적 거리

- 민코프스키 거리/표준화거리

 

<비계층적 군집>

- k평균 군집(k-means clustering)

 > 원하는 군집 수만큼 초기값을 지정하고, 각 개체를 가까운 초기값에 할당하여 군집을 형성한 뒤, 각 군집의 평균을 재계산하여 초기값을 갱신.

 

<실루엣 계수 Silhouette Coefficient>

- 각 데이터 포인트와 주위 데이터 포인트들과의 거리 계산을 통해 값을 구하며, 군집안에 있는 데이터들은 잘 모여있는지, 군집끼리는 잘 구분되는지 클러스터링을 평가하는 척도. 

- 군집간의 거리가 얼마나 효율적으로 분리돼 있는지를 나타냄. (군집분석의 평가 지표)

 

<연관 규칙 Association rule>

- 장바구니 분석... 조건-결과식으로 표현되는 유용한 패턴. 패턴/규칙 발견해내는 것. 

- 지지도/ 신뢰도/ 향상도가 측정지표

 

<apriori 알고리즘> 

- 연관규칙의 대표적인 알고리즘. 데이터들에 대한 발생 빈도를 기반으로 각 데이터 간의 연관관계를 밝히기 위한 방법

- ex 소비자의 물건 구매 패턴

- 최소 지지도 설정 > 개별품목 중 최소 지지도를 넘는 모든 품목을 찾기 > 2에서 찾은 개별 품목만을 이용해 최소 지지도를 넘는 두 가지 품목 집합을 찾기 > 찾은 품목 집합을 결합하여 최소 지지도를 넘는 세가지 품목 집합 찾기 > 반복해서 최소 지지도가 넘는 빈발 품목 집합 찾기.

 

<FP-Growth알고리즘>

- FP-Tree라는 구조를 통해 최소 지지도를 만족하는 빈발아이템 집합을 추출할 수 있는 알고리즘

- 후보 빈발 아이템 집합을 생성하지 않아 apriori보다 속도가 빠르며 연산비용이 저렴

 

'ADsP' 카테고리의 다른 글

ADsP 38회 합격 후기  (0) 2023.11.15
ADsP 3과목 데이터분석 정리 (1)  (0) 2023.08.18
ADsP 2과목 데이터 분석 기획 정리  (0) 2023.08.18
ADsP 1과목 데이터 이해 정리  (1) 2023.08.17
ADsP 31회 기출문제 정리  (0) 2023.08.16