Python(Colab) 워드클라우드(WordCloud)
2023. 6. 9. 16:30ㆍ파이썬
워드 클라우드
- 핵심 단어를 시각화 하는 기번
- 문서의 키워드, 개념 등을 직관적으로 파악할 수 있게 핵심 단어를 시각적으로 돋보이게 하는 기법
기초 설정
! pip install wordcloud
from wordcloud import WordCloud
generate(): 단어별 출현 빈도수를 비율로 반환하는 객체를 생성
.words_: 단어에 대한 비율을 반환
wordcloud.words_
data:image/s3,"s3://crabby-images/31439/314393045ce39db579a326acfdb8c3c36a5734e7" alt=""
글자수 데로 정렬하기
noun_text.sort(key=lambda x : len(x))
print(noun_text)
data:image/s3,"s3://crabby-images/1d5e2/1d5e24ccd2f933ca0f88f43159a4436d4269fb92" alt=""
불용어말고 알고리즘으로 제외 시키기
#STOPWORDS말고 알고리즘으로 제외 시키기
stop_words = ['함','것','제','정','바','그']
noun_text = [each_word for each_word in noun_text if each_word not in stop_words]
print(noun_text)
data:image/s3,"s3://crabby-images/6977c/6977c3174d14136f0d642ab350fcd4666cca72fd" alt=""
한글자 전부 제외시키기
noun_text = [each_word for each_word in noun_text if len(each_word) > 1]
print(noun_text)
data:image/s3,"s3://crabby-images/80421/804213ddaff376772b574f4adda48468eab5d842" alt=""
Counter 라이브러리 : 파일의 텍스트 빈도수를 체크해준다
기초설정
from collections import Counter
count = Counter(noun_text)
print(count)
data:image/s3,"s3://crabby-images/5fd47/5fd4788f3a083a1a23278b5deef0191e5f6de54e" alt=""
가장 빈도수가 높은 6개만 뽑아오기
Counter.most_common(개수)
data = count.most_common(20)
print(data)
data:image/s3,"s3://crabby-images/5e1a3/5e1a374b5995827a13f7093e78540f6670140b83" alt=""
🟡시각화
기초설정
import matplotlib.pyplot as plt
표 그리기
plt.figure(figsize=(15,10))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()
data:image/s3,"s3://crabby-images/1a822/1a822ab76f4ae16675776b556a587d39f1759e12" alt=""
조건1. 최대 단어 100개만 나오게 한 후 시각화 하기
WordCloud(max_words)를 사용
wordcloud = WordCloud(max_words=100).generate(text)
plt.figure(figsize=(15,10))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()
data:image/s3,"s3://crabby-images/327d3/327d3e8ee5c7b9ea6afd5637b1700cae5225bd11" alt=""
불용어:(워드 클라우드로 작성할 단어에서 제외할 단어)
기초설정
from wordcloud import STOPWORDS
STOPWORDS
data:image/s3,"s3://crabby-images/32d43/32d43db86845e0ff0945d9ba15e87f33ae001755" alt=""
불용어 추가하기
STOPWORDS.add()
STOPWORDS.add('said')
불용어를 제외한 워드 클라우드 시각화 하기
wordcloud = WordCloud(max_words=100,
font_path='/usr/share/fonts/truetype/nanum/NanumPen.ttf'
,stopwords=STOPWORDS).generate(text)
plt.figure(figsize=(15,10))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()
data:image/s3,"s3://crabby-images/97b77/97b7768236fbf6bf5d26dae2db517dbc7b845056" alt=""
워드클라우드 시각화에 마스크 씌우기
기초 설정
from PIL import Image
import numpy as np
alice_mask = np.array(Image.open('/content/drive/MyDrive/KDT-1/데이터분석/alice_mask.png'))
alice_mask
마스크 모양
시각화 하기
wordcloud = WordCloud(max_words=100,
font_path='/usr/share/fonts/truetype/nanum/NanumPen.ttf'
,stopwords=STOPWORDS
,mask=alice_mask
,background_color='pink').generate(text)
plt.figure(figsize=(15,10))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()
data:image/s3,"s3://crabby-images/4926e/4926e61eb457dd0606d3c810215edb6faa61a79e" alt=""
728x90
'파이썬' 카테고리의 다른 글
라이브러리 알아보기 (0) | 2023.10.17 |
---|---|
Python(Colab) folium (0) | 2023.06.09 |
Python(Colab) 형태소 분석 KoNLPy (0) | 2023.06.09 |
Python(Colab) 데이터프레임 시각화 Matplotlib 라이브러리 (0) | 2023.06.09 |
Python(Colab) 데이터프레임 select_dtypes,원 핫 인코딩 (0) | 2023.06.08 |