형태소분석(3)
-
Python(Colab) 자연어처리 + 데이터 전처리 연습
1. 모듈 import # 뉴스 기사 크롤링해주는 라이브러리 !pip install newspaper3k import newspaper # 지원하는 언어 보기 newspaper.languages() from newspaper import Article URL = 'https://v.daum.net/v/20230623113951712' article = Article(URL,language='ko') article.download() article.parse() print('title',article.title) print('title',article.text) 해석 1. newspaper를 사용하기 위해 pip install newspaper3k 2. 설치 완료 후 import newspaper 3. f..
2023.07.25 -
Python(Colab) 자연어처리 + 데이터 전처리 개념 + 한국어 특성
✔️코퍼스(Corpus) - 사전적인 의미는 말뭉치, 대량의 텍스트 데이터를 의미 - 자연어처리 연구나, 애플리케이션 활용을 염두해두고, 수집된 텍스트 데이터셋을 의미 ✔️토큰화(Tokenization) * 토큰화는 원시 데이터를 가져와 유용한 데이터 문자열로 변환하는 간단한 프로세스 * 토큰의 단위는 자연어 내에서 의미를 가지는 최소 단위로 정의 * 단락과 문장을 보다 쉽게 의미를 할당할 수 있는 더 작은 단위로 분할하는데 사용 * 사이버 보안, NFT 생성에 사용되는 것으로 유명하다 * 자연어처리 프로세스에서도 중요한 부분을 차지한다. * 전처리 과정에는 토큰화, 정제, 정규화 작업 등이 있다. 결론) 토큰화 작업은 주어진 코퍼스내에 자연어 문장들을 토큰이라 불리는 최소 단위로 나누는 작업 ✔️토큰화..
2023.07.11 -
Python(Colab) 형태소 분석 KoNLPy
✔ 자연어란? - 일상에서 사용하는 언어 - 컴퓨터는 자연어를 직접적으로 이해 할 수 없다. - 컴퓨터가 자연어의 의미를 분석해 처리 할 수 있도록 하는 일 : 자연어 처리(Natural Language Processing) ✔ 토크나이징 - 문장을 의미가 있는 가장 단어로 나눈다 - 나눠진 단어들을 이용해 의미를 분석 - 가장 기본이 되는 단어들을 "토큰"이라고 부른다. - 문장 형태의 데이터를 처리하기 위해 제일 처음 수행 해야하는 기본적 작업이다! - 토크나이징을 어떻게 하느냐에 따라 성능 차이가 생길 수 있다. ✔ 형태소 분석 - 자연어의 문장을 형태소라는 최소 단위로 분할하고 품사를 판별하는 직업 - 영어 형태소 분석은 형태소마다 띄어쓰기를 해서 문장을 구성하는 것이 기본(분석이 상대적으로 쉽다..
2023.06.09