파이썬(36)
-
Python(Colab) 워드클라우드(WordCloud)
워드 클라우드 - 핵심 단어를 시각화 하는 기번 - 문서의 키워드, 개념 등을 직관적으로 파악할 수 있게 핵심 단어를 시각적으로 돋보이게 하는 기법 기초 설정 ! pip install wordcloud from wordcloud import WordCloud generate(): 단어별 출현 빈도수를 비율로 반환하는 객체를 생성 .words_: 단어에 대한 비율을 반환 wordcloud.words_ 글자수 데로 정렬하기 noun_text.sort(key=lambda x : len(x)) print(noun_text) 불용어말고 알고리즘으로 제외 시키기 #STOPWORDS말고 알고리즘으로 제외 시키기 stop_words = ['함','것','제','정','바','그'] noun_text = [each_wo..
2023.06.09 -
Python(Colab) 형태소 분석 KoNLPy
✔ 자연어란? - 일상에서 사용하는 언어 - 컴퓨터는 자연어를 직접적으로 이해 할 수 없다. - 컴퓨터가 자연어의 의미를 분석해 처리 할 수 있도록 하는 일 : 자연어 처리(Natural Language Processing) ✔ 토크나이징 - 문장을 의미가 있는 가장 단어로 나눈다 - 나눠진 단어들을 이용해 의미를 분석 - 가장 기본이 되는 단어들을 "토큰"이라고 부른다. - 문장 형태의 데이터를 처리하기 위해 제일 처음 수행 해야하는 기본적 작업이다! - 토크나이징을 어떻게 하느냐에 따라 성능 차이가 생길 수 있다. ✔ 형태소 분석 - 자연어의 문장을 형태소라는 최소 단위로 분할하고 품사를 판별하는 직업 - 영어 형태소 분석은 형태소마다 띄어쓰기를 해서 문장을 구성하는 것이 기본(분석이 상대적으로 쉽다..
2023.06.09 -
Python(Colab) 데이터프레임 select_dtypes,원 핫 인코딩
#문자열 컬럼만 가져오기 df.select_dtypes(include='object') #문자열 컬럼만 빼고 가져오기 df.select_dtypes(exclude='object') #문자가 아닌 컬럼에만 10을 더해주고 싶을 경우 df.select_dtypes(exclude='object') + 10 #문자열을 가지고 있는 경우만 저장하고 싶을 경우 str_cols = df.select_dtypes(include='object').columns df[str_cols] 원 핫 인코딩(One hot Encoding) 한개의 요소는 1 나머지 요소는 0을 만들어 카테고리 형태를 표현하는 방법 A형: 1 , B형: 2, O형은 3일 때 A형 + B형 = O형이 나오지 않게 관계성을 끊는다 따라서 별도의 Colu..
2023.06.08 -
Python(Colab) 데이터프레임 등수매기기,타입변경,날짜,apply,map
등수 설정: rank() # rank(): 데이터프레임 또는 시리즈 순위를 매기는 함수(default값: ascending) df1['순위']=df1['브랜드평판지수'].rank(ascending=False) astype(): 데이터프레임 특정 열의 자료형을 바꿀 수 있다. 순위 float을 int 로 변경 df1['순위']=df1['순위'].astype(int) #바꾼 후 타입 확인하기 df1['순위'].dtypes to_datetime(): object 타입에서 datetime 타입으로 변환(날짜 계산 가능) df['생년월일'] = pd.to_datetime(df['생년월일']) df.info() # 연, 월, 일 뽑아 보기 df['생년월일'].dt.year df['생년월일'].dt.month df[..
2023.06.08 -
Python(Colab) 데이터프레임 합치기
기초 설정 df1 = pd.read_csv('http://bit.ly/ds-korean-idol') df2 = pd.read_csv('https://bit.ly/ds-korean-idol-2') concat([data1,data2],sort=false ,axis=0) : 데이터를 합치는 사용하는 메소드 #concat() : 데이터를 합치는데 사용하는 메소드 (sort는 false 옵션으로 순서가 유지되도록 가능 / axis=0 생략되어있다(행정렬)) pd.concat([df1,df_copy],sort=False) reset_index() : index를 새롭게 적용 /drop=True라는 옵션으로 기존 index 삭제 가능 기존의 준비한 데이터 합치기 pd.concat([df1,df2], axis=1) ..
2023.06.08 -
Day13_MYSQL_View
1) view 생성하기 문제 1. 테이블 1(member) 의 userid,username,hp와 테이블2(profile)의 mbti 출력하는 뷰(vw_memberprofile)를 만든다. 2. select만 할 수 잇는 melon계정을 생성 테이블(member,profile) 2개 join select m.userid,m.username,m.hp,p.mbti from member as m inner join profile as p on m.userid = p.userid; view 생성 create view vw_memberprofile as select m.userid,m.username,m.hp,p.mbti from member as m inner join profile as p on m.useri..
2023.03.21