데이터프레임(6)
-
Python(Colab) 데이터프레임 select_dtypes,원 핫 인코딩
#문자열 컬럼만 가져오기 df.select_dtypes(include='object') #문자열 컬럼만 빼고 가져오기 df.select_dtypes(exclude='object') #문자가 아닌 컬럼에만 10을 더해주고 싶을 경우 df.select_dtypes(exclude='object') + 10 #문자열을 가지고 있는 경우만 저장하고 싶을 경우 str_cols = df.select_dtypes(include='object').columns df[str_cols] 원 핫 인코딩(One hot Encoding) 한개의 요소는 1 나머지 요소는 0을 만들어 카테고리 형태를 표현하는 방법 A형: 1 , B형: 2, O형은 3일 때 A형 + B형 = O형이 나오지 않게 관계성을 끊는다 따라서 별도의 Colu..
2023.06.08 -
Python(Colab) 데이터프레임 등수매기기,타입변경,날짜,apply,map
등수 설정: rank() # rank(): 데이터프레임 또는 시리즈 순위를 매기는 함수(default값: ascending) df1['순위']=df1['브랜드평판지수'].rank(ascending=False) astype(): 데이터프레임 특정 열의 자료형을 바꿀 수 있다. 순위 float을 int 로 변경 df1['순위']=df1['순위'].astype(int) #바꾼 후 타입 확인하기 df1['순위'].dtypes to_datetime(): object 타입에서 datetime 타입으로 변환(날짜 계산 가능) df['생년월일'] = pd.to_datetime(df['생년월일']) df.info() # 연, 월, 일 뽑아 보기 df['생년월일'].dt.year df['생년월일'].dt.month df[..
2023.06.08 -
Python(Colab) 데이터프레임 합치기
기초 설정 df1 = pd.read_csv('http://bit.ly/ds-korean-idol') df2 = pd.read_csv('https://bit.ly/ds-korean-idol-2') concat([data1,data2],sort=false ,axis=0) : 데이터를 합치는 사용하는 메소드 #concat() : 데이터를 합치는데 사용하는 메소드 (sort는 false 옵션으로 순서가 유지되도록 가능 / axis=0 생략되어있다(행정렬)) pd.concat([df1,df_copy],sort=False) reset_index() : index를 새롭게 적용 /drop=True라는 옵션으로 기존 index 삭제 가능 기존의 준비한 데이터 합치기 pd.concat([df1,df2], axis=1) ..
2023.06.08 -
Python(Colab) 데이터프레임 통계 값 다루기
df.describe() 키의 합계,평균,개수,최소,최대,분산,표준편차 df['키'].sum() df['키'].mean() df['키'].count() df['키'].min() df['키'].max() df['키'].var() df['키'].std() .groupby() : 데이터를 그룹으로 묶어 분석할 때 사용 #소속사를 그룹해서 개수 파악 df.groupby('소속사').count() #그룹의 평균,합 구하기 df.groupby('그룹').mean() df.groupby('그룹').sum() #성별 기준 평균 구하기 df.groupby('성별').mean() #혈액형을 기준으로 키의 평균값을 구하기 df.groupby('혈액형')['키'].mean() #혈액형별로 그룹을 맺고, 성별로 또 그룹을 나눈..
2023.06.08 -
Python(Colab) 데이터프레임 행렬 추가 or 제거하기
기본적 * dict 형태의 데이터를 만들고 append()함수를 사용하여 데이터를 추가함 * 반드시 ignore_index = True 옵션을 추가해야 에러가 발생하지 않음 추가할 데이터 작성하기 dic1 = { "이름": "김사과", "그룹": "애플", "소속사": "apple", "성별": "여자", "생년월일": "2000-01-01", "키": 160, "혈액형": "A", "브랜드평판지수":987654321 } #append() 추가하기 (인플레이스 X) df.append(dic1,ignore_index=True) # 원본에 인플레이스 하기 df =df.append(dic1,ignore_index=True) 열 추가하기 조건 1 모든 데이터에 국적:대한민국 추가하기 df['국적'] = '대한민..
2023.06.08 -
Python(Colab) 데이터프레임 결측값(isna,isnull,notnull,fillna,dropna)
#isna() - 결측값이 있는지 True/False로 반환 df.isna() #isnull()-결측값이 있는지 True/False로 반환 df.isnull() 1. 조건: group의 결측값이 있는 사람 찾기 df[df['group'].isna()] 2. 조건: group의 결측값이 있는 사람의 인덱스와 이름만 가져오기 df['name'][df['group'].isna()] 3. 조건 : group의 null이 아닌 사람만 찾기 df[df['group'].notnull()] 4 조건: 그룹이 있는 연예인의 name,height,BT을 loc를 사용해서 출력 df.loc[:,['name','height','BT']][df['group'].notnull()] df.loc[df['group'].notnull..
2023.06.08