본문 바로가기
머신러닝/개념익히기

머신러닝 scikit-learn model selection 모듈

by ADELA_J 2023. 8. 1.

<model_selection 모듈> 

- 학습데이터/ 테스트 데이터 세트를 분리하고

- 교차 검증 분할 및 평가

- Estimator의 하이퍼 파라미터를 튜닝하기 위한 다양한 함수와 클래스를 제공

 

<train_test_split()>

- 학습/ 테스트 데이터 세트 분리 해주는 함수

▶ 정확도가 100%인 이유는, 이미 학습한 데이터로 테스트를 했기 때문에,,^_^

그래서 이럴때 train_test_split()을 써서 학습/테스트 데이터를 쉽게 분리할 수 있음.

▽앞에서 했던 붓꽃 데이터를 가지고 분리해보고자 함

▶ 75행 :  test_size = 전체 데이터에서 테스트 데이터 세트 크기를 얼마나 할것인지, 디폴트는 0.25(25%)

train_size = test_size 반대, 학습용 데이터 세트 크기를 얼마로 샘플링 할 것인가. (주로 test를 더 많이 씀)

shuffle = 분리하기전에 섞을 건지 결정. 디폴트는 True

random_state = 호출할때마다 동일한 데이터 세트를 생성하기 위해 주어지는 난수 값. random seed와 같지

   ▷ train_test_split()의 반환값은 튜플.

학습용데이터의 피처 데이터 세트(X_train)/ 테스트용 데이터의 피처 데이터 시트(X_test),

학습용 데이터의 레이블 데이터 시트(y_train) / 테스트용 데이터의 레이블 데이터 세트(y_test)가 반환