Data Science

Random Forest Classifier, 전에 몰랐던 것들

고양이호랑이 2022. 1. 18. 16:59

https://wyatt37.tistory.com/9

 

지니(Gini) vs 엔트로피(Entropy) 그리고 정보 이득량(Information Gain)

안녕하세요, 끙정입니다. 오늘은 Tree Based Method에서 파티션(노드)을 분할할 때 기준으로 쓰이는 두 가지 측정방법, Gini(지니)와 Entropy(엔트로피)를 알아보겠습니다. 그리고 추가로 Information Gain(정

wyatt37.tistory.com

Information Gain 이 뭔지 몰랐음. 

- 이걸로 컬럼 중요도(feature_importances_) 계산

- 컬럼 중요도는 0~1 사이 값 가짐

- 원래 Gini 높았는데(막섞여있음) 이 컬럼 값으로 분류하니까 Gini 낮아짐(잘 분류)일 때 Information Gain 값이 높음

컬럼 중요도 계산: 트리 만든 데이터 말고 트리 안만든 데이터 가지고 분류하고 찐 Gini 계산, Information Gain 계산해서 컬럼의 중요도가 계산됨

 

 

https://inuplace.tistory.com/570

 

[scikit-learn 라이브러리] RandomForestClassifier (랜덤 포레스트 분류)

랜덤 포레스트(Random Forest) 기본 결정트리는 해당 데이터에 대해 맞춰서 분류를 진행한 것이기 때문에 과적합 현상이 자주 나타났다. 그에 따라 이를 개선하기 위해 2001년 앙상블 기법으로 고안

inuplace.tistory.com

oob(out of bag) 뭔지 몰랐음

- oob_score=True 로 설정하면 학습용 데이터에서 샘플을 빼놨다가 이 샘플을 기반으로 평가를 수행하는듯.