ML 8

220120) 혼동행렬(Confusion Matrix) & ROC AUC Score

분류 결과 confusion matrix ROC curve (Receiver Operating Characteristic curve) : FPR과 TPR을 각각 x,y축으로 놓은 그래프. ROC curve는 X,Y가 둘다 [0,1]의 범위이고, (0,0) 에서 (1,1)을 잇는 곡선이다. - ROC 커브는 그 면적이 1에 가까울수록 (즉 왼쪽위 꼭지점에 다가갈수록) 좋은 성능이다. 그리고 이 면적은 항상 0.5~1의 범위를 갖는다.(0.5이면 랜덤에 가까운 성능, 1이면 최고의 성능) - TPR : True Positive Rate (=민감도, true accept rate) 1인 케이스에 대해 1로 잘 예측한 비율.(암환자를 진찰해서 암이라고 진단 함) - FPR : False Positive Rate..

Data Science 2022.01.20

220118) Random Forest Classifier 성능평가

https://horangcat.tistory.com/14 220117) Iris data로 Random Forest 실습 * load_iris 데이터셋 - petal length, petal width, sepal length, sepal width에 따라 세 종류로 나눌 수 있다. 데이터 로드 from sklearn.datasets import load_iris load_iris() # 붓꽃 데이터 리턴 - dict i.. horangcat.tistory.com 여기에서 이어집니다. from sklearn.metrics import accuracy_score print('정확도:', accuracy_score(y_test, prediction1)) >> 정확도: 0.9333333333333333 fr..

Data Science 2022.01.18

Random Forest Classifier, 전에 몰랐던 것들

https://wyatt37.tistory.com/9 지니(Gini) vs 엔트로피(Entropy) 그리고 정보 이득량(Information Gain) 안녕하세요, 끙정입니다. 오늘은 Tree Based Method에서 파티션(노드)을 분할할 때 기준으로 쓰이는 두 가지 측정방법, Gini(지니)와 Entropy(엔트로피)를 알아보겠습니다. 그리고 추가로 Information Gain(정 wyatt37.tistory.com Information Gain 이 뭔지 몰랐음. - 이걸로 컬럼 중요도(feature_importances_) 계산 - 컬럼 중요도는 0~1 사이 값 가짐 - 원래 Gini 높았는데(막섞여있음) 이 컬럼 값으로 분류하니까 Gini 낮아짐(잘 분류)일 때 Information Gain ..

Data Science 2022.01.18

220117) Iris data로 Random Forest 실습

* load_iris 데이터셋 - petal length, petal width, sepal length, sepal width에 따라 세 종류로 나눌 수 있다. 데이터 로드 from sklearn.datasets import load_iris load_iris() # 붓꽃 데이터 리턴 - dict ir_dic = load_iris() X = ir_dic['data'] # 독립변수 저장 y = ir_dic.target # 종속변수 저장 Random Forest Classifier 학습 from sklearn.ensemble import RandomForestClassifier rfc = RandomForestClassifier(n_estimators=10) # 10개의 Decision Tree를 만들 객..

Data Science 2022.01.17

code) play tennis data로 Decision Tree Classifier 적용해보기, 트리 시각화, train_test_split 후 성능평가까지

이날의 코드 https://horangcat.tistory.com/ 220114) 머신러닝 첫날 권혜윤 강사님이 오셨고, 교재 두권을 받았다! (사실 이미 전자책으로 샀지만,, 실물 책 있으면 좋지..) - 핸즈온 머신러닝 http://aladin.kr/p/cNZoF 핸즈온 머신러닝 지능형 시스템을 구축하려면 반드 horangcat.tistory.com 데이터는 여기 https://www.kaggle.com/sdk1810/playtennis PlayTennis Play Tennis example from the book Machine Learning by Tom M. Mitchell www.kaggle.com 전처리 # data 불러오기 pd.read_csv('playtennis.csv') # 모두 숫자..

Data Science 2022.01.16

220114) 머신러닝 첫날

권혜윤 강사님이 오셨고, 교재 두권을 받았다! (사실 이미 전자책으로 샀지만,, 실물 책 있으면 좋지..) - 핸즈온 머신러닝 http://aladin.kr/p/cNZoF 핸즈온 머신러닝 지능형 시스템을 구축하려면 반드시 알아야 할 머신러닝, 딥러닝 분야 핵심 개념과 이론을 이해하기 쉽게 설명한다. 사이킷런, 케라스, 텐서플로를 이용해 실전에서 바로 활용 가능한 예제로 모 www.aladin.co.kr - 혼자 공부하는 머신러닝+딥러닝 http://aladin.kr/p/NM09a 혼자 공부하는 머신러닝 + 딥러닝 구글 머신러닝 전문가로 활동하고 있는 저자는 여러 차례의 입문자들과 함께한 머신러닝&딥러닝 스터디와 번역·집필 경험을 통해 무엇을 어떻게 학습해야 할지 모르는 입문자의 막연함을 이해 www.al..

Data Science 2022.01.14

220113) AWS와 머신러닝

https://aws.amazon.com/ko/machine-learning/?nc2=h_ql_prod_ml 기계 학습 | AWS AI 및 기계 학습 | Amazon Web Services(AWS) 기계 학습을 비디오, 웹 페이지, API 등에 적용하여 검색, 현지화, 규정 준수 및 수익화를 강화합니다. aws.amazon.com 아마존에서 생각보다 여러가지를 할 수 있다. 수업에서 대략 살펴본 건 rekognition: 이미지 및 비디오 분석 Lex: 챗봇 Sagemaker: 모델 구축, 훈련 및 배포 프레임워크도 제공하고 인프라도 제공해준다 저번 교육과정 마치고 머신러닝 혼자 공부할때 EC2(인프라) 이용할까 해서 잠깐 가입했다가 당장 쓸 일이 없어서 중단했는데 많이들 쓰시나? 궁금. (코랩 프로밖에..

Data Science 2022.01.13