지니(Gini) vs 엔트로피(Entropy) 그리고 정보 이득량(Information Gain)
안녕하세요, 끙정입니다. 오늘은 Tree Based Method에서 파티션(노드)을 분할할 때 기준으로 쓰이는 두 가지 측정방법, Gini(지니)와 Entropy(엔트로피)를 알아보겠습니다. 그리고 추가로 Information Gain(정
wyatt37.tistory.com
Information Gain 이 뭔지 몰랐음.
- 이걸로 컬럼 중요도(feature_importances_) 계산
- 컬럼 중요도는 0~1 사이 값 가짐
- 원래 Gini 높았는데(막섞여있음) 이 컬럼 값으로 분류하니까 Gini 낮아짐(잘 분류)일 때 Information Gain 값이 높음
- 컬럼 중요도 계산: 트리 만든 데이터 말고 트리 안만든 데이터 가지고 분류하고 찐 Gini 계산, Information Gain 계산해서 컬럼의 중요도가 계산됨
https://inuplace.tistory.com/570
[scikit-learn 라이브러리] RandomForestClassifier (랜덤 포레스트 분류)
랜덤 포레스트(Random Forest) 기본 결정트리는 해당 데이터에 대해 맞춰서 분류를 진행한 것이기 때문에 과적합 현상이 자주 나타났다. 그에 따라 이를 개선하기 위해 2001년 앙상블 기법으로 고안
inuplace.tistory.com
oob(out of bag) 뭔지 몰랐음
- oob_score=True 로 설정하면 학습용 데이터에서 샘플을 빼놨다가 이 샘플을 기반으로 평가를 수행하는듯.
'Data Science' 카테고리의 다른 글
220119) breast cancer data로 xgboost 실습 (0) | 2022.01.19 |
---|---|
220118) Random Forest Classifier 성능평가 (0) | 2022.01.18 |
220117) Iris data로 Random Forest 실습 (0) | 2022.01.17 |
code) play tennis data로 Decision Tree Classifier 적용해보기, 트리 시각화, train_test_split 후 성능평가까지 (0) | 2022.01.16 |
220114) 머신러닝 첫날 (0) | 2022.01.14 |