Python Pandas 기초

Python Pandas 기초

2023. 6. 8. 15:32ㆍ파이썬

http://bigdata.dongguk.ac.kr/lectures/Python/_book/pandas.html#pandas-dataframe

5 장 Pandas | 파이썬 프로그래밍 기초

Pandas 데이터 처리와 분석을 위한 라이브러리 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있음 대용량의 데이터들을 처리하는데 매우 편리 pandas 자료구조 Series: 1차원 DataFrame: 2차원 Panel:

bigdata.dongguk.ac.kr

사용 Tool : Google Colab

기초 설정

! pip install pandas

import pandas as pd

1-1 Series와 DataFrame

* 2차원 표 데이터를 데이터 프레임 / 데이터 :values / 표의 행: index / 표의 열: colum

* 1차원 표 데이터는 Series / values index로 이루어짐

* 데이터프레임과 시리즈의 value는 넘파이의 ndarray기반이다

데이터 프레임 만들어보기

data1 = [[67,93,91],

[66,92,90],

[65,91,89],

[64,90,88],

[63,89,87]]

idx = ['김사과','반하나','오렌지','이메론','배에리' ] 인덱스로 사용할 예정

col = ['국어','영어','수학' ] 컬럼으로 사용할 예정

데이터 프레임 만들기(data1 즉 value만 가지고)

pd.DataFrame(data1)

데이터프레임 만들기 (data1 = value 와 idx = 인덱스)

pd.DataFrame(data1,idx)

데이터프레임 만들기 (data1 = value 와 idx = 인덱스 col = 컬럼)

df1 = pd.DataFrame(data1,idx,col)

딕셔너리를 이용한 데이터 프레임 만들기

dic1 ={

'국어':[67,66,65,64,63],

"영어":[93,92,91,90,89],

"수학":[91,90,89,88,87],

}

idx = ['김사과','반하나','오렌지','이메론','배에리' ]

df2=pd.DataFrame(data=dic1,index=idx)

df2

시리즈 만들기

data2 = [67,66,65,64,63]

pd.Series(data2)

가공하기

인덱스 넣기

se1 = pd.Series(data2,idx)

print(se1)

Method 및 관련 함수

M1. 데이터프레임.values: 데이터 프레임의 value값들을 반환한다(ndarray로 나온다)

M2. 데이터프레임.index: 데이터 프레임의 모든 index 값을 보여준다

M3. 데이터프레임.columns: 데이터 프레임의 모든 column 값을 보여준다

M4. 데이터프레임.shape: 데이터 프레임의 행렬을 간단하게 표현해준다

Df1. 데이터프레임.info(): 데이터 프레임의 정보들을 간단하게 보여준다

Df2. 데이터프레임.describe(): 데이터 프레임의 통계정보를 출력해준다 (조건: 숫자타입)

Df3. 데이터프레임.head(n): 데이터 프레임의 상위 n개 행을 출력

Df4. 데이터프레임.tail(n): 데이터 프레임의 하위 n개 행을 출력

Df4. 데이터프레임.sort_index(): index를 기준으로 오름차순 정렬

#index로 오름차순 정렬

df.sort_index() ##기본값

#index로 내림차순 정렬

df.sort_index(ascending=False)

#value의 따른 오름차순 정렬

df.sort_values('height') ##NaN값은 맨 밑으로 깔림

df.sort_values(by='height')

#값에 따른 내림차순 정렬

df.sort_values(by='height',ascending=False)

#NaN을 가장 위로 올리기 (na_position default = last)

df.sort_values(by='height', na_position='first')

판다스 함수1. pd.read_csv(파일경로 혹은 다운받을수 있는 URL, 인코딩방식)

pd.read_csv('korean-idol.csv')

pd.read_csv('/content/drive/MyDrive/KDT-1/데이터분석/korean-idol.csv')

#다운받을수 있는 URL

pd.read_csv('http://bit.ly/ds-korean-idol')

실습 및 예시

기본데이터

Height를 가지고 1차 정렬 후 blackpink를 값을 가지고 2차 정렬 (오름차순)

df.sort_values(['height','blackpink'], ascending=[False,True],na_position='first')

df.sort_values(by=['height','blackpink'], ascending=[False,True],na_position='first')

728x90

'파이썬' 카테고리의 다른 글

Python(Colab) 데이터프레임 결측값(isna,isnull,notnull,fillna,dropna) (0)	2023.06.08
Python(Colab) 데이터프레임 인덱싱(loc,iloc,boolean) (0)	2023.06.08
Python Numpy 모듈 (0)	2023.05.29
Day14_MySQL_Python 로그인 프로그램 작성 (0)	2023.03.22
Day14_MYSQL_Python 회원가입 프로그램을 만들어보자 (0)	2023.03.22

영차 영차