머신러닝/개념익히기36 ML LightGBM w.위스콘신 유방암 데이터 - XGBoost 와 함께 부스팅 계열 알고리즘에서 가장 각광 받고 있는 중. - XGBoost 보다 학습에 걸리는 시간이 훨씬 적음. 메모리 사용량도 적음. - 예측 성능은 크게 다를바가 없음. (하지만 기능상의 다양헝은 얘가 약간 더 많음) ▷ XGBoost의 보완하는 방식으로 개발됐기 때문에 - 단점 : 적은 데이터 세트에 적용할 경우 과적합이 쉬움 ( 일반적으로 10,000건 이하라고 함) - 리프 중심 트리 분할 (Leaf Wise) 방식을 사용. ▷ 대부분 트리의 깊이를 효과적으로 줄이기 위해 균형 트리 분할(Level Wise) 사용 : 최대한 균형 잡힌 트리를 유지하면서 분할하기 때문. ▷ 균형 잡힌 트리는 오버피팅에 보다 강한 구조를 가질 수 있다고 함. ▶ but, 이거는 균형을 맞추지.. 2024. 1. 2. ML XGBoost(eXtra Gradient Boost) w.위스콘신 유방암 데이터 - 트리 기반의 앙상블 학습 알고리즘 중 하나 - 분류에 있어서 일반적으로 뛰어난 예측 성능 나타냄 - GBM 기반. GBM 단점인 느린 수행 시간/과적합 규제(Regularization) 부재 등 문제 해결됨 ▷ 병렬 CPU 환경에서 병렬 학습 가능해 GBM보다 빠르게 학습 완료 가능 - 뛰어난 예측 성능 : 분류/회귀 영역에서 일반적으로 뛰어난 예측 성능 - GBM 대비 빠른 수행 시간 : 병렬 수행으로 GBM 비교적 빠름 - 과적합 규제 Regularization : 자체 과적합 규제 기능으로 좀 더 강한 내구성 가능 - 나무 가지치기 Tree pruning : 더 이상 긍정 이득이 없는 분할을 가지치기해서 분할 수를 줄일 수 있음 - 자체 내장된 교차 검증 : 반복 수행 시 교차 검증을 수행해 최.. 2023. 12. 21. ML AdaBoost, GBM(Gradient Boosting Machine) - weak learner (약한 학습기) 여러개를 순차적으로 학습-예측 하면서 잘못 예측한 데이터에 가중치를 부여해 오류를 개선하며 학습하는 방식 - 주로 AdaBoost(Adaptive boosting), Gradient Boost가 있음. - 오류 데이터에 가중치를 부여하며 부스팅을 수행하는 대표적인 알고리즘 - D1, 피치 데이터 세트에서 - 분류기준(weak learner, 약한 학습기)으로 (파란색 부분) +와 - 를 분류했을 때, 잘못 분류된 오류 데이터(동그라미 쳐진 부분)이 발생된다. - 그래서 이 오류데이터에 가중치 값을 부여한다(그림상으로는 조금 더 커짐) 이러한 부분들을 N번 반복하고, ▶ 약한 학습기가 순차적으로 유 값에 대해 가중치를 부여한 예측 결정 기준을 모두 결합해서 예측을.. 2023. 12. 20. ML 결정 트리 과적합 Overfitting 결정 트리는 규칙 생성 로직을 제어하지 않으면 완벽하게 분류하기 위해 트리 노드를 계속해서 만들어 감. 그래서 나중에는 매우 복잡한 규칙 트리가 생길 수 있음. ▶ 이는 쉽게 과적합, Overfitting이 될 수 있다는 것을 의미함. ▷ 그래서 결정 트리는 과적합이 상당히 높은 ML 알고리즘 중 하나임 이를 제어하기 위해 max_depth, min_samples_leaf 등 하이퍼파라미터를 튜닝하는 것임 - 어떻게 학습 데이터를 분할해서 예측을 수행하는지, 이로 인한 과적합 문제를 시각화 해볼 예정 ▶ 분류를 위한 데이터 세트를 임의로 만들어 봄 ▷ 사이킷런에서 분류 테스트용 데이터를 쉽게 만들 수 있도록 make_classification() 함수 제공 ▷ 각 피처 X, Y축으로 나열된 2차원 그래프.. 2023. 11. 29. 이전 1 2 3 4 ··· 9 다음