분류 전체보기(225)
-
Python(Pycharm) 테서텍트(Tesseract)
# 1. OCR(Optical Character Recognition) * 광학문자인식 * 이미지나 문서에서 텍스트를 자동으로 인식하고 컴퓨터가 이해할 수 있는 텍스트 데이터로 변환하는 프로세스 # 2. 테서렉트(Tesseract) * 오픈소스 OCR 라이브러리로 구글에서 개발하고 현재는 여러 커뮤니티에 의해 유지보수함. * 링크: https://github.com/UB-Mannheim/tesseract/wiki Home Tesseract Open Source OCR Engine (main repository) - UB-Mannheim/tesseract github.com ✔ 설치 방법 및 설정 * 1. tesserarct-ocr-w64-setup-5.3.1.20230401.exe 다운로드 * 2. (설..
2023.08.01 -
Python(Colab) 자연어처리 + 데이터 전처리 연습
1. 모듈 import # 뉴스 기사 크롤링해주는 라이브러리 !pip install newspaper3k import newspaper # 지원하는 언어 보기 newspaper.languages() from newspaper import Article URL = 'https://v.daum.net/v/20230623113951712' article = Article(URL,language='ko') article.download() article.parse() print('title',article.title) print('title',article.text) 해석 1. newspaper를 사용하기 위해 pip install newspaper3k 2. 설치 완료 후 import newspaper 3. f..
2023.07.25 -
MYSQL 오픈 소스 사용해보기
https://youtube.com/shorts/Hg87NX5ZaEU?feature=share
2023.07.21 -
Pycharm 기초설정
1. python 3.10 버전 이상 준비하기 (Fast Api를 사용하기 위해서는 3.10이 필요) 버전확인(cmd) python --version 버전확인(colab) !python --version 2. 파이참 사이트 접속 PyCharm 다운로드: JetBrains가 만든 전문 개발자용 Python IDE PyCharm 다운로드: JetBrains가 만든 전문 개발자용 Python IDE www.jetbrains.com 3. 다운로드 4. project 만들기 레드 박스: 파일 저장 위치 엘로 박스: 가상환경 사용하기 그린 박스 : python 버전 선택 블루 박스 : 프로젝트를 만든 후 웰컴 파일 만들기 5. 프로젝트에 첫 파일 만들기 6. 폰트 사이즈 바꾸기 file -> setting -> e..
2023.07.21 -
Python(Colab) 자연어처리 + 데이터 전처리 개념 + 한국어 특성
✔️코퍼스(Corpus) - 사전적인 의미는 말뭉치, 대량의 텍스트 데이터를 의미 - 자연어처리 연구나, 애플리케이션 활용을 염두해두고, 수집된 텍스트 데이터셋을 의미 ✔️토큰화(Tokenization) * 토큰화는 원시 데이터를 가져와 유용한 데이터 문자열로 변환하는 간단한 프로세스 * 토큰의 단위는 자연어 내에서 의미를 가지는 최소 단위로 정의 * 단락과 문장을 보다 쉽게 의미를 할당할 수 있는 더 작은 단위로 분할하는데 사용 * 사이버 보안, NFT 생성에 사용되는 것으로 유명하다 * 자연어처리 프로세스에서도 중요한 부분을 차지한다. * 전처리 과정에는 토큰화, 정제, 정규화 작업 등이 있다. 결론) 토큰화 작업은 주어진 코퍼스내에 자연어 문장들을 토큰이라 불리는 최소 단위로 나누는 작업 ✔️토큰화..
2023.07.11 -
Python(Colab) 자연어처리 + HuggingFace 사용해보기
✔️ Huggingface * 머신 러닝을 사용하여 애플리케이션을 구축하기 위한 도구를 개발하는 회사 * 자연어 처리 애플리케이션용으로 구축된 Transformers 라이브러리와 사용자가 기계 학습 모델 및 데이터셋을 공유할 수 있는 플랫폼으로 유명 * 허깅페이스에 모델들은 기본적으로 PretrainedModel 클래스를 상속 받고 있다. Huggingface 사용해보기 !pip install transformers from transformers import AutoModel, AutoTokenizer, BertTokenizer AutoModel 모듈 : 모델에 관한 정보를 처음부터 명시하지 않아도 자동으로 설정해주는 라이브러리 AutoTokenizer 모듈: 토큰화를 시켜주는 모듈 BertTokeni..
2023.07.11