Pandas(10)
-
Python(Colab) 전국 도시공원 데이터 주물럭거리기
1. 기초설정 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns 2. 데이터 불러오기 park = pd.read_csv('/content/drive/MyDrive/KDT-1/데이터분석/전국도시공원표준데이터.csv',encoding='ms949') 3. 한글 사용 준비 설치 후 다시 런타임 시작!! !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf plt.rc('font',family='NanumBarunGothic') 4. 데이터 간단 조회 park...
2023.06.11 -
Python(Colab) 상권 별 업종 밀집 통계 주물럭거리기
목표: csv 데이터를 가지고 여러가지 기준으로 시각화해서 만들어보기 1. 기초설정 import pandas as pd import numpy as np import matplotlib.pyplot as plt #그래프로 확인하기 위한 시각화 라이브러리 import seaborn as sns #matplotlib 기반으로 만들어진 시각화 라이브러리 2. csv파일 shop변수에 저장 shop = pd.read_csv('/content/drive/MyDrive/KDT-1/데이터분석/shop_201806_01.csv') shop 3. shop 데이터 기초 파악 pd.set_option('display.max_columns',40) shop.info() 4.사용할 컬럼만 확인 후 재정렬 view_..
2023.06.09 -
Python(Colab) 데이터프레임 select_dtypes,원 핫 인코딩
#문자열 컬럼만 가져오기 df.select_dtypes(include='object') #문자열 컬럼만 빼고 가져오기 df.select_dtypes(exclude='object') #문자가 아닌 컬럼에만 10을 더해주고 싶을 경우 df.select_dtypes(exclude='object') + 10 #문자열을 가지고 있는 경우만 저장하고 싶을 경우 str_cols = df.select_dtypes(include='object').columns df[str_cols] 원 핫 인코딩(One hot Encoding) 한개의 요소는 1 나머지 요소는 0을 만들어 카테고리 형태를 표현하는 방법 A형: 1 , B형: 2, O형은 3일 때 A형 + B형 = O형이 나오지 않게 관계성을 끊는다 따라서 별도의 Colu..
2023.06.08 -
Python(Colab) 데이터프레임 등수매기기,타입변경,날짜,apply,map
등수 설정: rank() # rank(): 데이터프레임 또는 시리즈 순위를 매기는 함수(default값: ascending) df1['순위']=df1['브랜드평판지수'].rank(ascending=False) astype(): 데이터프레임 특정 열의 자료형을 바꿀 수 있다. 순위 float을 int 로 변경 df1['순위']=df1['순위'].astype(int) #바꾼 후 타입 확인하기 df1['순위'].dtypes to_datetime(): object 타입에서 datetime 타입으로 변환(날짜 계산 가능) df['생년월일'] = pd.to_datetime(df['생년월일']) df.info() # 연, 월, 일 뽑아 보기 df['생년월일'].dt.year df['생년월일'].dt.month df[..
2023.06.08 -
Python(Colab) 데이터프레임 합치기
기초 설정 df1 = pd.read_csv('http://bit.ly/ds-korean-idol') df2 = pd.read_csv('https://bit.ly/ds-korean-idol-2') concat([data1,data2],sort=false ,axis=0) : 데이터를 합치는 사용하는 메소드 #concat() : 데이터를 합치는데 사용하는 메소드 (sort는 false 옵션으로 순서가 유지되도록 가능 / axis=0 생략되어있다(행정렬)) pd.concat([df1,df_copy],sort=False) reset_index() : index를 새롭게 적용 /drop=True라는 옵션으로 기존 index 삭제 가능 기존의 준비한 데이터 합치기 pd.concat([df1,df2], axis=1) ..
2023.06.08 -
Python(Colab) 데이터프레임 통계 값 다루기
df.describe() 키의 합계,평균,개수,최소,최대,분산,표준편차 df['키'].sum() df['키'].mean() df['키'].count() df['키'].min() df['키'].max() df['키'].var() df['키'].std() .groupby() : 데이터를 그룹으로 묶어 분석할 때 사용 #소속사를 그룹해서 개수 파악 df.groupby('소속사').count() #그룹의 평균,합 구하기 df.groupby('그룹').mean() df.groupby('그룹').sum() #성별 기준 평균 구하기 df.groupby('성별').mean() #혈액형을 기준으로 키의 평균값을 구하기 df.groupby('혈액형')['키'].mean() #혈액형별로 그룹을 맺고, 성별로 또 그룹을 나눈..
2023.06.08