Random Forest Classifier 3

220118) Random Forest Classifier 성능평가

https://horangcat.tistory.com/14 220117) Iris data로 Random Forest 실습 * load_iris 데이터셋 - petal length, petal width, sepal length, sepal width에 따라 세 종류로 나눌 수 있다. 데이터 로드 from sklearn.datasets import load_iris load_iris() # 붓꽃 데이터 리턴 - dict i.. horangcat.tistory.com 여기에서 이어집니다. from sklearn.metrics import accuracy_score print('정확도:', accuracy_score(y_test, prediction1)) >> 정확도: 0.9333333333333333 fr..

Data Science 2022.01.18

Random Forest Classifier, 전에 몰랐던 것들

https://wyatt37.tistory.com/9 지니(Gini) vs 엔트로피(Entropy) 그리고 정보 이득량(Information Gain) 안녕하세요, 끙정입니다. 오늘은 Tree Based Method에서 파티션(노드)을 분할할 때 기준으로 쓰이는 두 가지 측정방법, Gini(지니)와 Entropy(엔트로피)를 알아보겠습니다. 그리고 추가로 Information Gain(정 wyatt37.tistory.com Information Gain 이 뭔지 몰랐음. - 이걸로 컬럼 중요도(feature_importances_) 계산 - 컬럼 중요도는 0~1 사이 값 가짐 - 원래 Gini 높았는데(막섞여있음) 이 컬럼 값으로 분류하니까 Gini 낮아짐(잘 분류)일 때 Information Gain ..

Data Science 2022.01.18

220117) Iris data로 Random Forest 실습

* load_iris 데이터셋 - petal length, petal width, sepal length, sepal width에 따라 세 종류로 나눌 수 있다. 데이터 로드 from sklearn.datasets import load_iris load_iris() # 붓꽃 데이터 리턴 - dict ir_dic = load_iris() X = ir_dic['data'] # 독립변수 저장 y = ir_dic.target # 종속변수 저장 Random Forest Classifier 학습 from sklearn.ensemble import RandomForestClassifier rfc = RandomForestClassifier(n_estimators=10) # 10개의 Decision Tree를 만들 객..

Data Science 2022.01.17