파이썬/머신러닝 및 딥러닝(28)
-
Python(Colab) 타이타닉 데이터 셋 (Titanic data set)(LabelEncoder)
1. 기초 설정 import numpy as np import pandas as pd df = pd.read_csv('https://bit.ly/fc-ml-titanic') df.head() 2. 데이터 정보 확인 df.info() 3. 데이터 셋 컬럼 설명 * PassengerId : 승객 아이디 * Survived : 생존 여부 * Pclass : 좌석 등급 * Name : 이름 * Sex : 성별 * Age : 나이 * SibSp : 형제자매 배우자수 * Parch : 부모 자식 수 * Ticket: 티켓번호 * Fare: 요금 * Cabin: 선실번호 * Embarked : 탑승 항구 4. 학습 데이터와 검증 데이터 나누기 독립변수 column : 성별, 요금, 나이, 좌석등급 종속변수 colum..
2023.06.12 -
Python(Colab) 아이리스 데이터 셋 (Iris data set)(Scikit-Learn)
🔴 주의점 > 검증 데이터와 학습 데이터에서 겹치는 데이터가 존재시 과대적합(overfitting)이 발생한다 > 그래서 검증데이터랑 학습데이터에는 겹치는게 있으면 X 1. 기초 설정 from sklearn.datasets import load_iris iris = load_iris() 2. 데이터셋 설명 보기 print(iris['DESCR']) 3. 데이터 셋 설명 요약 4. 데이터 셋 key + value찾기 iris.keys() # data, target, frame, target_names, DESCR, feature_names, filename,data_module 8개 존재 5. data 키만 뽑아서 변수의 저장하기 data = iris['data'] 6. 데이터 프레임에 사용할 target..
2023.06.12 -
Python(Colab) 사이킷 런 모듈(Scikit-learn Module)
Scikit-learn Module (사이킷 런) - 대표적인 파이썬 머신러닝 모듈 - 다양한 머신러닝 알고리즘을 제공 - 다양한 샘플 데이터를 제공 - 머신러닝 결과 검증하는 기능을 제공 - BSD 라이센스이여서, 무료로 사용 및 배포 가능 (BSD 라이센스: Bekeley Software Distribution 소프트웨어의 무료 사용, 수정 및 배포를 허용한 오픈 라이센스) https://scikit-learn.org/stable/ scikit-learn: machine learning in Python — scikit-learn 1.2.2 documentation Model selection Comparing, validating and choosing parameters and models. Ap..
2023.06.11 -
Python(Colab) 머신러닝 개념 및 기초
✔️머신러닝 데이터를 기반으로 학습하는 기계 ✔️딥러닝 머신러닝의 한 분야로써 깊은(deep) 신경망 구조의 머신러닝 ✔️배경 과거) 컴퓨터로 데이터를 읽어들이고, 데이터 안에서 특징을 학습하여 패턴을 찾아내는 작업이 있었다(패턴인식이라 부름) 현재) 데이터를 대량으로 수집,처리할 수 있는 환경이 구축되어 할 수 있는 일이 多 --> 머신 러닝은 데이터로부터 특징이나 패턴을 찾아내는 것이다. 따라서 데이터가 가장 중요하다. ✔️머신러닝 정의 무엇(X)으로 무엇(Y)을 예측이 가능한 함수(f)를 찾아내는 것 X: 데이터(입력변수, 독립변수, 원인) Y: 답(출력변수, 종속변수, 결과) f: 모형(머신러닝의 알고리즘) ✔️머신러닝 분류 1. 회귀(Regression) - 시계열(시간적인 변화를 연속적으로 관..
2023.06.11