<model_selection 모듈>
- 학습데이터/ 테스트 데이터 세트를 분리하고
- 교차 검증 분할 및 평가
- Estimator의 하이퍼 파라미터를 튜닝하기 위한 다양한 함수와 클래스를 제공
<train_test_split()>
- 학습/ 테스트 데이터 세트 분리 해주는 함수
▶ 정확도가 100%인 이유는, 이미 학습한 데이터로 테스트를 했기 때문에,,^_^
그래서 이럴때 train_test_split()을 써서 학습/테스트 데이터를 쉽게 분리할 수 있음.
▽앞에서 했던 붓꽃 데이터를 가지고 분리해보고자 함
▶ 75행 : test_size = 전체 데이터에서 테스트 데이터 세트 크기를 얼마나 할것인지, 디폴트는 0.25(25%)
train_size = test_size 반대, 학습용 데이터 세트 크기를 얼마로 샘플링 할 것인가. (주로 test를 더 많이 씀)
shuffle = 분리하기전에 섞을 건지 결정. 디폴트는 True
random_state = 호출할때마다 동일한 데이터 세트를 생성하기 위해 주어지는 난수 값. random seed와 같지
▷ train_test_split()의 반환값은 튜플.
학습용데이터의 피처 데이터 세트(X_train)/ 테스트용 데이터의 피처 데이터 시트(X_test),
학습용 데이터의 레이블 데이터 시트(y_train) / 테스트용 데이터의 레이블 데이터 세트(y_test)가 반환
'머신러닝 > 개념익히기' 카테고리의 다른 글
머신러닝 Stratified K 폴드 (0) | 2023.08.22 |
---|---|
머신러닝 교차검증, K-Fold Cross Validation (1) | 2023.08.06 |
머신러닝 scikit-learn 주요 모듈 (0) | 2023.07.30 |
머신러닝, 지도학습과 비지도학습 간단히 (0) | 2023.07.29 |
머신러닝 scikit-learn, 머신러닝 프로세스 간단히 알고가기 (0) | 2023.07.21 |