머신러닝 랜덤포레스트 / k-NN

<랜덤포레스트>

- 앙상블 학습의 일종

- 결정 트리의 단순 버전을 여러개 만들어 분류 결과를 다수결로 결정하는 방법

- 선형 분리가 불가능한 데이터셋의 분류가 가증한 점.

- 다수의 분류기를 통해 다수결로 결과를 출력하기 때문에 빗나간 값에 의해 예측 결과가 좌우되기 힘든 점.

▼ 기본 예시

▼ 어제했던 결정트리 예시에서 버섯 한번 더 활용하기

기본 데이터는 여기서 보기 ▶ https://dev-adela.tistory.com/169

▷이전에 했던 결정트리랑 정확도가 똑같이 나온다..! ~~왜지 ▷ 버전이 올라가면서 개선된것이라고 함다~~

<k-NN, k-nearest neighbors algorithm, k-최근접 이웃 알고리즘>

- 이웃해있는걸로 비교해서 가까운 것으로 판단한다는것.

- 예측할 데이터와 유사한 데이터 몇 개를 찾아내 다수결로 분류 결과를 결정하는 방법.

- 게으른 학습 (lazy learning)이라고 불리기도 함.

- 학습에 소요되는 계산량은 0 임.

- 데이터로 학습하는 것이 아니라 직접 참조하여 라벨을 예측

- 지도데이터를 예측해 사용될 데이터와의 유사도 정렬 > 분류기에 설정된 k개의 데이터를 유사도가 높은 순으로 참조 > 참조된 데이터가 속한 클래스 중 가장 많았던 것을 결과 예측

- 알고리즘이 비교적 단순, 높은 예측 정확도, 복잡한 모양의 경계선도 표현하기 쉬움.

- 하지만 분류기로 지정한 자연수 k의 수를 많이 늘리면 : 정확도 저하, 데이터 많아지면 : 느린 알고리즘 됨.

▼ 기본 구현

▷ 오 정확도 1나와쒀~~~~

▼ 위의 버섯 데이터를 해봤을때 정확도가 다른 모델보다 떨어지는 것을 확인할 수 있다.

머신러닝 하이퍼파라미터 (0)	2023.07.20
머신러닝 같은 데이터로 scikit-learn 구현해보기 (0)	2023.07.19
결정트리, decision tree (0)	2023.07.18
기본 선형 SVM (0)	2023.07.18
로지스틱 회귀 (0)	2023.07.18

공부하고있슴다