Python(Colab) 머신러닝 개념 및 기초

2023. 6. 11. 19:43파이썬/머신러닝 및 딥러닝

✔️머신러닝

데이터를 기반으로 학습하는 기계

✔️딥러닝

머신러닝의 한 분야로써 깊은(deep) 신경망 구조의 머신러닝

 

 

✔️배경

 

과거) 컴퓨터로 데이터를 읽어들이고, 데이터 안에서 특징을 학습하여 패턴을 찾아내는 작업이 있었다(패턴인식이라 부름)

현재) 데이터를 대량으로 수집,처리할 수 있는 환경이 구축되어 할 수 있는 일이 多

 

--> 머신 러닝은 데이터로부터 특징이나 패턴을 찾아내는 것이다. 따라서 데이터가 가장 중요하다.

 

 

✔️머신러닝 정의

무엇(X)으로 무엇(Y)을 예측이 가능한  함수(f)를 찾아내는 것

 

X: 데이터(입력변수, 독립변수, 원인)

Y: 답(출력변수, 종속변수, 결과)

f: 모형(머신러닝의 알고리즘)

 

 

✔️머신러닝 분류

 

출처:https://opentutorials.org/module/4916/28934

 

 

1. 회귀(Regression) - 시계열(시간적인 변화를 연속적으로 관측한 데이터)같은 연속된 데이터를 취급할 때 사용하는 기법

 

 

2. 분류(Classification) - 주어진 데이터를 클래스별로 구별해내는 과정으로 데이터와 데이터의 레이블 값을 학습시키고 어느 범주에 속한 데이터인지 판단하고 예측

 

 

3. 클러스터링(Clustering)  - 분류와 유사하지만 데이터의 레이블(종속변수)가 없다. 

                                           - 유사한 속성들을 갖는 데이터를 일정한 수의 군집으로 그룹핑하는 비지도학습 

 

 

 

분류와 클러스트링 차이

1. 분류는 지도학습 / 클러스터링은 비지도 학습
2. 분류는 정답이 있다(종속변수) / 클러스터링은 정답이 없다(종속변수)


cf) 클러스터링은 데이터 간의 유사도를 정의하고 그 유사도에 가까운 것을 순서대로 합쳐가는 것
각각의 개체가 이렇게도 나눠 질 수 있구나! 라는 정도의 지식을 발견하는 데 적합

 

✔️ 학습을 기준으로 분류

 

1. 지도학습 - 문제와 정답을 모두 학습시킨 후 예측 또는 분류를 하는 방법

                        y=f(x)에 대하여 x,y를 학습히키고 f를 찾는 모델링

                        y에 대하여 예측하고 분류하는 문제

 

2. 비지도학습 - 종속변수가 존재하지 않고 입력변수간에 관계를 모델링하는 것

 

3. 강화학습 - 수 많은 시뮬레이션을 통해 현재의 선택이 미래에 보상이 최대가 되도록 학습하는 것

 

728x90