Information Gain 이 뭔지 몰랐음.
- 이걸로 컬럼 중요도(feature_importances_) 계산
- 컬럼 중요도는 0~1 사이 값 가짐
- 원래 Gini 높았는데(막섞여있음) 이 컬럼 값으로 분류하니까 Gini 낮아짐(잘 분류)일 때 Information Gain 값이 높음
- 컬럼 중요도 계산: 트리 만든 데이터 말고 트리 안만든 데이터 가지고 분류하고 찐 Gini 계산, Information Gain 계산해서 컬럼의 중요도가 계산됨
https://inuplace.tistory.com/570
oob(out of bag) 뭔지 몰랐음
- oob_score=True 로 설정하면 학습용 데이터에서 샘플을 빼놨다가 이 샘플을 기반으로 평가를 수행하는듯.
'Data Science' 카테고리의 다른 글
220119) breast cancer data로 xgboost 실습 (0) | 2022.01.19 |
---|---|
220118) Random Forest Classifier 성능평가 (0) | 2022.01.18 |
220117) Iris data로 Random Forest 실습 (0) | 2022.01.17 |
code) play tennis data로 Decision Tree Classifier 적용해보기, 트리 시각화, train_test_split 후 성능평가까지 (0) | 2022.01.16 |
220114) 머신러닝 첫날 (0) | 2022.01.14 |