자연어처리(5)
-
Python(Colab) Meta-Llama2 사용해보기
#필요한 라이브러리 설치 하기 !pip install -q transformers accelerate sentencepiece !huggingface-cli login Token: 허깅페이스에 로그인하여 Access Token을 찾아서 입력 Add token as git credential? : git에 연결할 것이냐 유무 Login successful이 뜨면 성공 ! 🟡2. 모델 불러오기 및 파이프라인 생성 #모델 불러오기 #gpu랑 고용량 RAM을 사용하지 않으면 불러올 수 없음(메모리 초과) from transformers import AutoTokenizer import transformers import torch model = "meta-llama/Llama-2-7b-chat-hf" token..
2023.10.05 -
Python(Colab) 자연어처리 + 데이터 전처리 연습
1. 모듈 import # 뉴스 기사 크롤링해주는 라이브러리 !pip install newspaper3k import newspaper # 지원하는 언어 보기 newspaper.languages() from newspaper import Article URL = 'https://v.daum.net/v/20230623113951712' article = Article(URL,language='ko') article.download() article.parse() print('title',article.title) print('title',article.text) 해석 1. newspaper를 사용하기 위해 pip install newspaper3k 2. 설치 완료 후 import newspaper 3. f..
2023.07.25 -
Python(Colab) 자연어처리 + 데이터 전처리 개념 + 한국어 특성
✔️코퍼스(Corpus) - 사전적인 의미는 말뭉치, 대량의 텍스트 데이터를 의미 - 자연어처리 연구나, 애플리케이션 활용을 염두해두고, 수집된 텍스트 데이터셋을 의미 ✔️토큰화(Tokenization) * 토큰화는 원시 데이터를 가져와 유용한 데이터 문자열로 변환하는 간단한 프로세스 * 토큰의 단위는 자연어 내에서 의미를 가지는 최소 단위로 정의 * 단락과 문장을 보다 쉽게 의미를 할당할 수 있는 더 작은 단위로 분할하는데 사용 * 사이버 보안, NFT 생성에 사용되는 것으로 유명하다 * 자연어처리 프로세스에서도 중요한 부분을 차지한다. * 전처리 과정에는 토큰화, 정제, 정규화 작업 등이 있다. 결론) 토큰화 작업은 주어진 코퍼스내에 자연어 문장들을 토큰이라 불리는 최소 단위로 나누는 작업 ✔️토큰화..
2023.07.11 -
Python(Colab) 자연어처리 + HuggingFace 사용해보기
✔️ Huggingface * 머신 러닝을 사용하여 애플리케이션을 구축하기 위한 도구를 개발하는 회사 * 자연어 처리 애플리케이션용으로 구축된 Transformers 라이브러리와 사용자가 기계 학습 모델 및 데이터셋을 공유할 수 있는 플랫폼으로 유명 * 허깅페이스에 모델들은 기본적으로 PretrainedModel 클래스를 상속 받고 있다. Huggingface 사용해보기 !pip install transformers from transformers import AutoModel, AutoTokenizer, BertTokenizer AutoModel 모듈 : 모델에 관한 정보를 처음부터 명시하지 않아도 자동으로 설정해주는 라이브러리 AutoTokenizer 모듈: 토큰화를 시켜주는 모듈 BertTokeni..
2023.07.11 -
Python(Colab) 자연어처리
✔️자연어 * 프로그래밍언어와 같이 인공적으로 만든 기계 언어와 대비되는 단어로, 우리가 일상에서 주로 사용하는 언어 ✔️자연어 처리란? * 컴퓨터가 한국어나 영어와 같은 인간의 자연어를 읽고, 이해할 수 있도록 돕는 인공지능의 한 분야 * 자연어에서 의미 있는 정보를 추출하여 활용 * 기계가 자연어의 의미를 이해하게 함 * 기계가 사람의 언어로 소통할 수 있게 하는 것이 목표 ✔️ 활용분야 * 문서 분류, 스팸 처리와 같은 분류 * 문제부터 검색어 추천과 같은 추천 기능, 음성 인식, 질의 응답, 번역 등의 다양한 분야에서 사용 자연어 처리 용어 1. 자연어이해(NLU) * 자연어처리의 하위 집합 * 기계가 다양한 텍스트의 숨겨진 의미를 해석하려면 사전 처리 작업들과 추가 학습이 필요 * 텍스트에 명시..
2023.07.02