데이터분석(12)
-
Python(Colab) 파이토치(Pytorch)
✔️ 파이토치(Pytorch) - 텐서플로우와 함께 머신러닝, 딥러닝에서 가장 널리 사용되고 있는 프레임워크 - 초기에는 Torch라는 이름으로 Lua언어 기반으로 만들었다. - 후에 파이썬 기반으로 변경한 것이 Pytorch이다. 1. 파이토치 사용하기 import torch 2. 파이토치 버전 확인하기 print(torch.__version__) ✔️ 스칼라: 하나의 상수를 의미 var1 = torch.tensor([1]) var2 = torch.tensor([6.5]) print(var1) print(type(var1)) # 두 스칼라의 연산 print(var1+ var2) print(var1- var2) print(var1* var2) print(var1/ var2) ✔️ 백터:상수가 2개이상 나..
2023.06.18 -
Python(Colab) KMeans + 실루엣 기법 / 클러스터링
데이터 분석의 적용시켜보기 1.데이터 셋 mkt_df = pd.read_csv('/content/drive/MyDrive/KDT-1/머신러닝과 딥러닝/marketing.csv') mkt_df 2. 데이터 셋 설명 목표: 고객 등급을 자체적으로 나눠, 그에 맞는 혜택 적용 등 마케팅 전략 세우기 3. 데이터 전처리하기 1) 아이디 삭제 mkt_df.drop('ID',axis=1,inplace=True) 2) 생일 데이터에서 1900년도 이전 사람 지우기 mkt_df.sort_values('Year_Birth') mkt_df = mkt_df[mkt_df['Year_Birth'] > 1900] 3) 소득에서 이상치인 66666 날리기 mkt_df.sort_values('Income',as..
2023.06.18 -
Python(Colab) 랜덤 포레스트 (Random Forest)
✔ 랜덤 포레스트 - 의사결정나무는 매우 훌륭한 모델이지만, 학습데이터에 오버피팅하는 경향이 있다. - 가지치기 같은 방법을 통해 부작용을 최소화 할 수 있지만, 한계가 있다. - 학습을 통해 구성해 놓은 다수의 나무들로부터 분류 결과를 취합해서 결론을 얻는 방식의 모델 랜덤포레스트는 ! cf) 앙상블 모델 여러개의 머신러닝 모델을 이용해서 최적의 답을 찾아내는 기법 데이터로 실습 목표: 어떤 컬럼이 예약 취소율과 관련이 있을 지 1.기초설정 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt hotel_df = pd.read_csv('/content/drive/MyDrive/KDT-1/머..
2023.06.16 -
Python(Colab) 전국 도시공원 데이터 주물럭거리기
1. 기초설정 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns 2. 데이터 불러오기 park = pd.read_csv('/content/drive/MyDrive/KDT-1/데이터분석/전국도시공원표준데이터.csv',encoding='ms949') 3. 한글 사용 준비 설치 후 다시 런타임 시작!! !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf plt.rc('font',family='NanumBarunGothic') 4. 데이터 간단 조회 park...
2023.06.11 -
Python(Colab) 데이터프레임 시각화 Matplotlib 라이브러리
기초 설정 ! pip install matplotlib import matplotlib.pyplot as plt plt.plot() 함수 plt.plot([1,2,3,4]) # 리스트의 값이 y값이며, x값[0,1,2,3..]은 자동으로 생성 plt.show() plt.plot([1,2,3,4],[1,4,5,8]) #x값 y값 plt.show() 1가지 표에 2가지 데이터 표시하기 #1번 데이터(파랑) data = np.arange(1,50) plt.plot(data) #2번 데이터 (주황) data2 = np.arange(50,100) plt.plot(data2) #표 보기 plt.show() 2가지 데이터 2가지 표로 표현하기 =plt.subplot(행의개수, 열의 개수, 순서(인덱스)) # 2개 행..
2023.06.09 -
Python(Colab) 데이터프레임 select_dtypes,원 핫 인코딩
#문자열 컬럼만 가져오기 df.select_dtypes(include='object') #문자열 컬럼만 빼고 가져오기 df.select_dtypes(exclude='object') #문자가 아닌 컬럼에만 10을 더해주고 싶을 경우 df.select_dtypes(exclude='object') + 10 #문자열을 가지고 있는 경우만 저장하고 싶을 경우 str_cols = df.select_dtypes(include='object').columns df[str_cols] 원 핫 인코딩(One hot Encoding) 한개의 요소는 1 나머지 요소는 0을 만들어 카테고리 형태를 표현하는 방법 A형: 1 , B형: 2, O형은 3일 때 A형 + B형 = O형이 나오지 않게 관계성을 끊는다 따라서 별도의 Colu..
2023.06.08