파이썬(92)
-
Python(Colab) 자연어처리 + 데이터 전처리 개념 + 한국어 특성
✔️코퍼스(Corpus) - 사전적인 의미는 말뭉치, 대량의 텍스트 데이터를 의미 - 자연어처리 연구나, 애플리케이션 활용을 염두해두고, 수집된 텍스트 데이터셋을 의미 ✔️토큰화(Tokenization) * 토큰화는 원시 데이터를 가져와 유용한 데이터 문자열로 변환하는 간단한 프로세스 * 토큰의 단위는 자연어 내에서 의미를 가지는 최소 단위로 정의 * 단락과 문장을 보다 쉽게 의미를 할당할 수 있는 더 작은 단위로 분할하는데 사용 * 사이버 보안, NFT 생성에 사용되는 것으로 유명하다 * 자연어처리 프로세스에서도 중요한 부분을 차지한다. * 전처리 과정에는 토큰화, 정제, 정규화 작업 등이 있다. 결론) 토큰화 작업은 주어진 코퍼스내에 자연어 문장들을 토큰이라 불리는 최소 단위로 나누는 작업 ✔️토큰화..
2023.07.11 -
Python(Colab) 자연어처리 + HuggingFace 사용해보기
✔️ Huggingface * 머신 러닝을 사용하여 애플리케이션을 구축하기 위한 도구를 개발하는 회사 * 자연어 처리 애플리케이션용으로 구축된 Transformers 라이브러리와 사용자가 기계 학습 모델 및 데이터셋을 공유할 수 있는 플랫폼으로 유명 * 허깅페이스에 모델들은 기본적으로 PretrainedModel 클래스를 상속 받고 있다. Huggingface 사용해보기 !pip install transformers from transformers import AutoModel, AutoTokenizer, BertTokenizer AutoModel 모듈 : 모델에 관한 정보를 처음부터 명시하지 않아도 자동으로 설정해주는 라이브러리 AutoTokenizer 모듈: 토큰화를 시켜주는 모듈 BertTokeni..
2023.07.11 -
Python(Colab) 파이토치(Pytorch) + 딥러닝 + 포켓문분류
✔ 데이터셋 train 데이터 - https://www.kaggle.com/datasets/thedagger/pokemon-generation-one validation 데이터 - https://www.kaggle.com/datasets/hlrhegemony/pokemon-image-dataset 1. 다운로드 하기 import os import shutil os.environ['KAGGLE_USERNAME'] = 캐글 아이디 os.environ['KAGGLE_KEY'] = 캐글 고유 키 !kaggle datasets download -d thedagger/pokemon-generation-one !kaggle datasets download -d hlrhegemony/pokemon-image-datas..
2023.07.06 -
Python(Colab) 자연어처리
✔️자연어 * 프로그래밍언어와 같이 인공적으로 만든 기계 언어와 대비되는 단어로, 우리가 일상에서 주로 사용하는 언어 ✔️자연어 처리란? * 컴퓨터가 한국어나 영어와 같은 인간의 자연어를 읽고, 이해할 수 있도록 돕는 인공지능의 한 분야 * 자연어에서 의미 있는 정보를 추출하여 활용 * 기계가 자연어의 의미를 이해하게 함 * 기계가 사람의 언어로 소통할 수 있게 하는 것이 목표 ✔️ 활용분야 * 문서 분류, 스팸 처리와 같은 분류 * 문제부터 검색어 추천과 같은 추천 기능, 음성 인식, 질의 응답, 번역 등의 다양한 분야에서 사용 자연어 처리 용어 1. 자연어이해(NLU) * 자연어처리의 하위 집합 * 기계가 다양한 텍스트의 숨겨진 의미를 해석하려면 사전 처리 작업들과 추가 학습이 필요 * 텍스트에 명시..
2023.07.02 -
Python(Colab) 파이토치(Pytorch) + 딥러닝 + 전이학습 (Alien vs predator)
✔️전이학습 * 하나의 작업을 위해 훈련된 모델을 유사 작업 수행 모델의 시작점으로 활용하는 딥러닝 접근법 * 신경망은 처음부터 새로 학습하는 것보다, 전이 학습을 통해 업데이트하고 재 학습하는 편이 더 빠르고, 간편하다 * 전이 학습은 여러 응용 분야 중에서도 특히 검출, 영상 인식, 음성 인식, 검색 분야에 많이 사용 ✔️ 고려해야할 점 * 데이터의 크기: 모델 크기의 중요성은 모델을 배포할 위치와 방법에 따라 달라진다. * 정확도: 재 훈련전의 모델 성능은 어느 정도인지 확인이 필요 * 예측속도: 하드웨어 및 배치 크기와 같은 다른 딥러닝 요소는 물론, 선택된 모델의 구조와 크기에 따라 달라진다. 파이토치에서 제공되는 사전학습 모델들이 많이 존재한다. kaggle 데이터 (에일리언 vs 프레데터)로..
2023.06.24 -
Python(Colab) 파이토치(Pytorch) + 딥러닝 + CNN + 손글씨 데이터
CNN을 적용해서 손글씨 데이터를 분류해보자 1. 기초설정 import torch import torch.nn as nn import torch.optim as optim import torchvision.datasets as datasets import torchvision.transforms as transforms import matplotlib.pyplot as plt from torch.utils.data import DataLoader 2. 코랩 환경에서 GPU로 돌리기 device = 'cuda' if torch.cuda.is_available() else 'cpu' print(device) 3. 데이터셋 받아오기 train_data = datasets.MNIST( root='data', t..
2023.06.21