파이썬(36)
-
Python/Pycharm OpenCV 기초
1. OpenCv(Open Source Computer Vision Library) - 컴퓨터 비전과 이미지 처리를 위한 오픈소스 라이브러리 - 1999년 인텔에서 영상 처리 기술을 개발하기 위한 목적 - 2000년 BSD 라이센스로 배포 - 2011년 이후 OpenCV2로 개발 시작 ✔ OpecnCV 설치 pip install opencv-python 2. Computer Vision - 디지털 이미지나 비디오에서 정보를 추출하고, 해석하는 기술과 분야 - 이미지 처리, 객체 탐지, 패턴 인식, 광학 문자 인식(OCR)...... 3. 영상(image) - 픽셀(pixel) -이미지를 구성하는 최소 단위 -바둑판 모양의 격자에 나열되어 있는 형태, 2차원 행렬영상의 종류 - 그레이 스케일 영상 - 흑백..
2023.09.22 -
Python(Colab) 자연어처리 + 데이터 전처리 개념 + 한국어 특성
✔️코퍼스(Corpus) - 사전적인 의미는 말뭉치, 대량의 텍스트 데이터를 의미 - 자연어처리 연구나, 애플리케이션 활용을 염두해두고, 수집된 텍스트 데이터셋을 의미 ✔️토큰화(Tokenization) * 토큰화는 원시 데이터를 가져와 유용한 데이터 문자열로 변환하는 간단한 프로세스 * 토큰의 단위는 자연어 내에서 의미를 가지는 최소 단위로 정의 * 단락과 문장을 보다 쉽게 의미를 할당할 수 있는 더 작은 단위로 분할하는데 사용 * 사이버 보안, NFT 생성에 사용되는 것으로 유명하다 * 자연어처리 프로세스에서도 중요한 부분을 차지한다. * 전처리 과정에는 토큰화, 정제, 정규화 작업 등이 있다. 결론) 토큰화 작업은 주어진 코퍼스내에 자연어 문장들을 토큰이라 불리는 최소 단위로 나누는 작업 ✔️토큰화..
2023.07.11 -
Python(Colab) 자연어처리 + HuggingFace 사용해보기
✔️ Huggingface * 머신 러닝을 사용하여 애플리케이션을 구축하기 위한 도구를 개발하는 회사 * 자연어 처리 애플리케이션용으로 구축된 Transformers 라이브러리와 사용자가 기계 학습 모델 및 데이터셋을 공유할 수 있는 플랫폼으로 유명 * 허깅페이스에 모델들은 기본적으로 PretrainedModel 클래스를 상속 받고 있다. Huggingface 사용해보기 !pip install transformers from transformers import AutoModel, AutoTokenizer, BertTokenizer AutoModel 모듈 : 모델에 관한 정보를 처음부터 명시하지 않아도 자동으로 설정해주는 라이브러리 AutoTokenizer 모듈: 토큰화를 시켜주는 모듈 BertTokeni..
2023.07.11 -
Python(Colab) 파이토치(Pytorch) + 딥러닝 + 포켓문분류
✔ 데이터셋 train 데이터 - https://www.kaggle.com/datasets/thedagger/pokemon-generation-one validation 데이터 - https://www.kaggle.com/datasets/hlrhegemony/pokemon-image-dataset 1. 다운로드 하기 import os import shutil os.environ['KAGGLE_USERNAME'] = 캐글 아이디 os.environ['KAGGLE_KEY'] = 캐글 고유 키 !kaggle datasets download -d thedagger/pokemon-generation-one !kaggle datasets download -d hlrhegemony/pokemon-image-datas..
2023.07.06 -
Python(Colab) 자연어처리
✔️자연어 * 프로그래밍언어와 같이 인공적으로 만든 기계 언어와 대비되는 단어로, 우리가 일상에서 주로 사용하는 언어 ✔️자연어 처리란? * 컴퓨터가 한국어나 영어와 같은 인간의 자연어를 읽고, 이해할 수 있도록 돕는 인공지능의 한 분야 * 자연어에서 의미 있는 정보를 추출하여 활용 * 기계가 자연어의 의미를 이해하게 함 * 기계가 사람의 언어로 소통할 수 있게 하는 것이 목표 ✔️ 활용분야 * 문서 분류, 스팸 처리와 같은 분류 * 문제부터 검색어 추천과 같은 추천 기능, 음성 인식, 질의 응답, 번역 등의 다양한 분야에서 사용 자연어 처리 용어 1. 자연어이해(NLU) * 자연어처리의 하위 집합 * 기계가 다양한 텍스트의 숨겨진 의미를 해석하려면 사전 처리 작업들과 추가 학습이 필요 * 텍스트에 명시..
2023.07.02 -
Python(Colab) 파이토치(Pytorch) + 딥러닝 + 전이학습 (Alien vs predator)
✔️전이학습 * 하나의 작업을 위해 훈련된 모델을 유사 작업 수행 모델의 시작점으로 활용하는 딥러닝 접근법 * 신경망은 처음부터 새로 학습하는 것보다, 전이 학습을 통해 업데이트하고 재 학습하는 편이 더 빠르고, 간편하다 * 전이 학습은 여러 응용 분야 중에서도 특히 검출, 영상 인식, 음성 인식, 검색 분야에 많이 사용 ✔️ 고려해야할 점 * 데이터의 크기: 모델 크기의 중요성은 모델을 배포할 위치와 방법에 따라 달라진다. * 정확도: 재 훈련전의 모델 성능은 어느 정도인지 확인이 필요 * 예측속도: 하드웨어 및 배치 크기와 같은 다른 딥러닝 요소는 물론, 선택된 모델의 구조와 크기에 따라 달라진다. 파이토치에서 제공되는 사전학습 모델들이 많이 존재한다. kaggle 데이터 (에일리언 vs 프레데터)로..
2023.06.24