머신러닝(17)
-
Python(Colab) 의사 결정 나무(Decision Tree)
✔ 의사 결정 나무 - 데이터를 분석하여 그 사이에 존재하는 패턴을 예측 가능한 규칙들의 조합으로 나타내며 그 모양이 나무와 유사하다하여 의사 결정 나무라고 부른다. 특징) 1. 분류와 회귀 모두 가능하다. 2. 지니계수(Gennie Index) : 0에 가까울수록 클래스에 속한 불순도가 낮다 3. 엔트로피(Entropy): 결정을 내릴만한 충분한 정보의 데이터가 없다고 보는 것 4. 과대적합(overfitting): 훈련데이터에서는 정확하나, 테스트 데이터에서는 성과가 나쁜 현상 훈련 데이터가 적거나, 노이즈가 있을 때 또는 알고리즘 자체가 나쁠때 발생 의사 결정 나무에서는 나무 가지가 많거나, 크기가 클 때 발생 cf) 과대 적합을 회피하기 위한 대책 1) 사전 가지치기: 나무가 다 자라기전에 알고리..
2023.06.13 -
Python(Colab) 타이타닉 데이터 셋 (Titanic data set)(LabelEncoder)
1. 기초 설정 import numpy as np import pandas as pd df = pd.read_csv('https://bit.ly/fc-ml-titanic') df.head() 2. 데이터 정보 확인 df.info() 3. 데이터 셋 컬럼 설명 * PassengerId : 승객 아이디 * Survived : 생존 여부 * Pclass : 좌석 등급 * Name : 이름 * Sex : 성별 * Age : 나이 * SibSp : 형제자매 배우자수 * Parch : 부모 자식 수 * Ticket: 티켓번호 * Fare: 요금 * Cabin: 선실번호 * Embarked : 탑승 항구 4. 학습 데이터와 검증 데이터 나누기 독립변수 column : 성별, 요금, 나이, 좌석등급 종속변수 colum..
2023.06.12 -
Python(Colab) 아이리스 데이터 셋 (Iris data set)(Scikit-Learn)
🔴 주의점 > 검증 데이터와 학습 데이터에서 겹치는 데이터가 존재시 과대적합(overfitting)이 발생한다 > 그래서 검증데이터랑 학습데이터에는 겹치는게 있으면 X 1. 기초 설정 from sklearn.datasets import load_iris iris = load_iris() 2. 데이터셋 설명 보기 print(iris['DESCR']) 3. 데이터 셋 설명 요약 4. 데이터 셋 key + value찾기 iris.keys() # data, target, frame, target_names, DESCR, feature_names, filename,data_module 8개 존재 5. data 키만 뽑아서 변수의 저장하기 data = iris['data'] 6. 데이터 프레임에 사용할 target..
2023.06.12 -
Python(Colab) 사이킷 런 모듈(Scikit-learn Module)
Scikit-learn Module (사이킷 런) - 대표적인 파이썬 머신러닝 모듈 - 다양한 머신러닝 알고리즘을 제공 - 다양한 샘플 데이터를 제공 - 머신러닝 결과 검증하는 기능을 제공 - BSD 라이센스이여서, 무료로 사용 및 배포 가능 (BSD 라이센스: Bekeley Software Distribution 소프트웨어의 무료 사용, 수정 및 배포를 허용한 오픈 라이센스) https://scikit-learn.org/stable/ scikit-learn: machine learning in Python — scikit-learn 1.2.2 documentation Model selection Comparing, validating and choosing parameters and models. Ap..
2023.06.11 -
Python(Colab) 머신러닝 개념 및 기초
✔️머신러닝 데이터를 기반으로 학습하는 기계 ✔️딥러닝 머신러닝의 한 분야로써 깊은(deep) 신경망 구조의 머신러닝 ✔️배경 과거) 컴퓨터로 데이터를 읽어들이고, 데이터 안에서 특징을 학습하여 패턴을 찾아내는 작업이 있었다(패턴인식이라 부름) 현재) 데이터를 대량으로 수집,처리할 수 있는 환경이 구축되어 할 수 있는 일이 多 --> 머신 러닝은 데이터로부터 특징이나 패턴을 찾아내는 것이다. 따라서 데이터가 가장 중요하다. ✔️머신러닝 정의 무엇(X)으로 무엇(Y)을 예측이 가능한 함수(f)를 찾아내는 것 X: 데이터(입력변수, 독립변수, 원인) Y: 답(출력변수, 종속변수, 결과) f: 모형(머신러닝의 알고리즘) ✔️머신러닝 분류 1. 회귀(Regression) - 시계열(시간적인 변화를 연속적으로 관..
2023.06.11