Python(Colab) 데이터프레임 통계 값 다루기

2023. 6. 8. 16:24파이썬

df.describe()
 
 
 

 

키의 합계,평균,개수,최소,최대,분산,표준편차 

 

df['키'].sum()
df['키'].mean()
df['키'].count()
df['키'].min()
df['키'].max()
df['키'].var()
df['키'].std()

 

 

.groupby() : 데이터를 그룹으로 묶어 분석할 때 사용

 

#소속사를 그룹해서 개수 파악
df.groupby('소속사').count()
 
 
 
#그룹의 평균,합 구하기
df.groupby('그룹').mean()
df.groupby('그룹').sum()
 
 
 
#성별 기준 평균 구하기
df.groupby('성별').mean()
 
 
#혈액형을 기준으로 키의 평균값을 구하기
df.groupby('혈액형')['키'].mean()
 

 

#혈액형별로 그룹을 맺고, 성별로 또 그룹을 나눈 후 키의 평균값을 확인
df.groupby(['혈액형','성별'])['키'].mean()
 
 
 
 

 

drop_duplicates(): 중복된 데이터 값 제거하기

#drop_duplicates(): 중복된 데이터를 제거

df['혈액형'].drop_duplicates()
 
 
 
#제일 마지막 인덱스를 기준으로 남겨놓기
df['혈액형'].drop_duplicates(keep='last')
 
 

 

 

#value_counts(): 열의 각 값에 대한 데이터의 개수를 반환 . NaN은 생략  
df['혈액형'].value_counts()
 

 

#dropna=False 시 NaN값을 보여줌
df['그룹'].value_counts(dropna=False)
 

 

 

728x90