Colab(13)
-
Python(Colab) Meta-Llama2 사용해보기
#필요한 라이브러리 설치 하기 !pip install -q transformers accelerate sentencepiece !huggingface-cli login Token: 허깅페이스에 로그인하여 Access Token을 찾아서 입력 Add token as git credential? : git에 연결할 것이냐 유무 Login successful이 뜨면 성공 ! 🟡2. 모델 불러오기 및 파이프라인 생성 #모델 불러오기 #gpu랑 고용량 RAM을 사용하지 않으면 불러올 수 없음(메모리 초과) from transformers import AutoTokenizer import transformers import torch model = "meta-llama/Llama-2-7b-chat-hf" token..
2023.10.05 -
Python(Colab) 자연어처리 + 데이터 전처리 연습
1. 모듈 import # 뉴스 기사 크롤링해주는 라이브러리 !pip install newspaper3k import newspaper # 지원하는 언어 보기 newspaper.languages() from newspaper import Article URL = 'https://v.daum.net/v/20230623113951712' article = Article(URL,language='ko') article.download() article.parse() print('title',article.title) print('title',article.text) 해석 1. newspaper를 사용하기 위해 pip install newspaper3k 2. 설치 완료 후 import newspaper 3. f..
2023.07.25 -
Python(Colab) 자연어처리 + 데이터 전처리 개념 + 한국어 특성
✔️코퍼스(Corpus) - 사전적인 의미는 말뭉치, 대량의 텍스트 데이터를 의미 - 자연어처리 연구나, 애플리케이션 활용을 염두해두고, 수집된 텍스트 데이터셋을 의미 ✔️토큰화(Tokenization) * 토큰화는 원시 데이터를 가져와 유용한 데이터 문자열로 변환하는 간단한 프로세스 * 토큰의 단위는 자연어 내에서 의미를 가지는 최소 단위로 정의 * 단락과 문장을 보다 쉽게 의미를 할당할 수 있는 더 작은 단위로 분할하는데 사용 * 사이버 보안, NFT 생성에 사용되는 것으로 유명하다 * 자연어처리 프로세스에서도 중요한 부분을 차지한다. * 전처리 과정에는 토큰화, 정제, 정규화 작업 등이 있다. 결론) 토큰화 작업은 주어진 코퍼스내에 자연어 문장들을 토큰이라 불리는 최소 단위로 나누는 작업 ✔️토큰화..
2023.07.11 -
Python(Colab) 자연어처리 + HuggingFace 사용해보기
✔️ Huggingface * 머신 러닝을 사용하여 애플리케이션을 구축하기 위한 도구를 개발하는 회사 * 자연어 처리 애플리케이션용으로 구축된 Transformers 라이브러리와 사용자가 기계 학습 모델 및 데이터셋을 공유할 수 있는 플랫폼으로 유명 * 허깅페이스에 모델들은 기본적으로 PretrainedModel 클래스를 상속 받고 있다. Huggingface 사용해보기 !pip install transformers from transformers import AutoModel, AutoTokenizer, BertTokenizer AutoModel 모듈 : 모델에 관한 정보를 처음부터 명시하지 않아도 자동으로 설정해주는 라이브러리 AutoTokenizer 모듈: 토큰화를 시켜주는 모듈 BertTokeni..
2023.07.11 -
Python(Colab)에서 Kaggle 파일 다운
* 캐글 접속 -> 계정 클릭 -> Setting -> ApI 항목에 Create New Token -> json을 다운로드 * 토큰 받아 놓기 import os # 환경 변수 추가해놓기(.env같은 것) os.environ['KAGGLE_USERNAME'] = "json파일 이름" #username os.environ['KAGGLE_KEY'] = "json 파일 키" #token 파일 받아서 압축 풀기 # https://www.kaggle.com/datasets/pmigdal/alien-vs-predator-images !kaggle datasets download -d pmigdal/alien-vs-predator-images !unzip -q alien-vs-predator-images.zip co..
2023.06.20 -
Python(Colab) KMeans + 실루엣 기법 / 클러스터링
데이터 분석의 적용시켜보기 1.데이터 셋 mkt_df = pd.read_csv('/content/drive/MyDrive/KDT-1/머신러닝과 딥러닝/marketing.csv') mkt_df 2. 데이터 셋 설명 목표: 고객 등급을 자체적으로 나눠, 그에 맞는 혜택 적용 등 마케팅 전략 세우기 3. 데이터 전처리하기 1) 아이디 삭제 mkt_df.drop('ID',axis=1,inplace=True) 2) 생일 데이터에서 1900년도 이전 사람 지우기 mkt_df.sort_values('Year_Birth') mkt_df = mkt_df[mkt_df['Year_Birth'] > 1900] 3) 소득에서 이상치인 66666 날리기 mkt_df.sort_values('Income',as..
2023.06.18