머신러닝62 ML LightGBM w.위스콘신 유방암 데이터 - XGBoost 와 함께 부스팅 계열 알고리즘에서 가장 각광 받고 있는 중. - XGBoost 보다 학습에 걸리는 시간이 훨씬 적음. 메모리 사용량도 적음. - 예측 성능은 크게 다를바가 없음. (하지만 기능상의 다양헝은 얘가 약간 더 많음) ▷ XGBoost의 보완하는 방식으로 개발됐기 때문에 - 단점 : 적은 데이터 세트에 적용할 경우 과적합이 쉬움 ( 일반적으로 10,000건 이하라고 함) - 리프 중심 트리 분할 (Leaf Wise) 방식을 사용. ▷ 대부분 트리의 깊이를 효과적으로 줄이기 위해 균형 트리 분할(Level Wise) 사용 : 최대한 균형 잡힌 트리를 유지하면서 분할하기 때문. ▷ 균형 잡힌 트리는 오버피팅에 보다 강한 구조를 가질 수 있다고 함. ▶ but, 이거는 균형을 맞추지.. 2024. 1. 2. Proj 레스토랑의 웨이터 팁 분석 및 예측 목표 레스토랑에서 웨이터에게 제공되는 팁에 대해 기록된 데이터를 기반으 영향을 미치는 요인과 머신러닝 모델을 훈련 데이터 준비 파이썬 사이킷런 내장데이터 데이터 내용 total_bill : 택스 포함된 총 가격 (달러) tip : 웨이터에게 준 팁 (달러) sex : 총 가격을 지불한 사람의 성별 smoker : 지불한 사람의 흡연 여부 day : 무슨 요일 time : 런치 or 디너 size: 테이블의 몇 사람이 앉았는지 ▶ info를 살펴보면 내장데이터 답게 깔끔하게 정리가 되어 있다. ▶ 좀 더 자세히 데이터를 보면 tip은 1~10달러이고, 테이블 size는 1~6명으로 되어 있다. ▶ total_bill 을 살펴보면 주로 7~22달러정도까지가 많은 사람들이 내는 가격으로 보인다. ▶ tip 도.. 2023. 12. 29. ML XGBoost(eXtra Gradient Boost) w.위스콘신 유방암 데이터 - 트리 기반의 앙상블 학습 알고리즘 중 하나 - 분류에 있어서 일반적으로 뛰어난 예측 성능 나타냄 - GBM 기반. GBM 단점인 느린 수행 시간/과적합 규제(Regularization) 부재 등 문제 해결됨 ▷ 병렬 CPU 환경에서 병렬 학습 가능해 GBM보다 빠르게 학습 완료 가능 - 뛰어난 예측 성능 : 분류/회귀 영역에서 일반적으로 뛰어난 예측 성능 - GBM 대비 빠른 수행 시간 : 병렬 수행으로 GBM 비교적 빠름 - 과적합 규제 Regularization : 자체 과적합 규제 기능으로 좀 더 강한 내구성 가능 - 나무 가지치기 Tree pruning : 더 이상 긍정 이득이 없는 분할을 가지치기해서 분할 수를 줄일 수 있음 - 자체 내장된 교차 검증 : 반복 수행 시 교차 검증을 수행해 최.. 2023. 12. 21. ML AdaBoost, GBM(Gradient Boosting Machine) - weak learner (약한 학습기) 여러개를 순차적으로 학습-예측 하면서 잘못 예측한 데이터에 가중치를 부여해 오류를 개선하며 학습하는 방식 - 주로 AdaBoost(Adaptive boosting), Gradient Boost가 있음. - 오류 데이터에 가중치를 부여하며 부스팅을 수행하는 대표적인 알고리즘 - D1, 피치 데이터 세트에서 - 분류기준(weak learner, 약한 학습기)으로 (파란색 부분) +와 - 를 분류했을 때, 잘못 분류된 오류 데이터(동그라미 쳐진 부분)이 발생된다. - 그래서 이 오류데이터에 가중치 값을 부여한다(그림상으로는 조금 더 커짐) 이러한 부분들을 N번 반복하고, ▶ 약한 학습기가 순차적으로 유 값에 대해 가중치를 부여한 예측 결정 기준을 모두 결합해서 예측을.. 2023. 12. 20. 이전 1 2 3 4 ··· 16 다음