딥러닝(8)
-
Python(Colab) 의사 결정 나무(Decision Tree)
✔ 의사 결정 나무 - 데이터를 분석하여 그 사이에 존재하는 패턴을 예측 가능한 규칙들의 조합으로 나타내며 그 모양이 나무와 유사하다하여 의사 결정 나무라고 부른다. 특징) 1. 분류와 회귀 모두 가능하다. 2. 지니계수(Gennie Index) : 0에 가까울수록 클래스에 속한 불순도가 낮다 3. 엔트로피(Entropy): 결정을 내릴만한 충분한 정보의 데이터가 없다고 보는 것 4. 과대적합(overfitting): 훈련데이터에서는 정확하나, 테스트 데이터에서는 성과가 나쁜 현상 훈련 데이터가 적거나, 노이즈가 있을 때 또는 알고리즘 자체가 나쁠때 발생 의사 결정 나무에서는 나무 가지가 많거나, 크기가 클 때 발생 cf) 과대 적합을 회피하기 위한 대책 1) 사전 가지치기: 나무가 다 자라기전에 알고리..
2023.06.13 -
Python(Colab) 아이리스 데이터 셋 (Iris data set)(Scikit-Learn)
🔴 주의점 > 검증 데이터와 학습 데이터에서 겹치는 데이터가 존재시 과대적합(overfitting)이 발생한다 > 그래서 검증데이터랑 학습데이터에는 겹치는게 있으면 X 1. 기초 설정 from sklearn.datasets import load_iris iris = load_iris() 2. 데이터셋 설명 보기 print(iris['DESCR']) 3. 데이터 셋 설명 요약 4. 데이터 셋 key + value찾기 iris.keys() # data, target, frame, target_names, DESCR, feature_names, filename,data_module 8개 존재 5. data 키만 뽑아서 변수의 저장하기 data = iris['data'] 6. 데이터 프레임에 사용할 target..
2023.06.12