자연어 처리 2

자연어처리 (NLP) 기초학습 - 2

Data Preprocessing Pipeline (데이터 전처리 파이프라인): 설명: 데이터 전처리 파이프라인은 데이터 수집 및 정제, 토큰화, 정규화, 불용어 제거, 특성 추출 등의 단계로 구성됩니다. 아래는 토큰화와 불용어 제거 예시입니다. from nltk.corpus import stopwords from nltk.tokenize import word_tokenize text = "이것은 예시 문장입니다. NLP 처리를 위한 예시입니다." # 문장을 토큰화 tokens = word_tokenize(text) # 불용어 제거 stop_words = set(stopwords.words('한국어')) filtered_tokens = [word for word in tokens if word.lower..

자연어 처리 2023.10.12

자연어처리 (NLP) 기초학습 - 1

NLP 처리 공부를 시작하기 전에 이해해야 하는 중요한 키워드에 대한 설명과 파이썬 예시 코드를 제공하겠습니다. 탐색적 데이터 분석 (Exploratory Data Analysis, EDA) 데이터 과학과 데이터 분석의 초기 단계 중 하나로, 주어진 데이터를 탐색하고 데이터 세트의 주요 특성 및 패턴을 이해하기 위한 과정을 말합니다. EDA는 데이터의 품질을 평가하고 데이터 내의 흥미로운 정보를 발견하는 데 중요한 역할을 합니다. 아래에서 EDA의 목적과 예시 코드를 자세히 설명하겠습니다. EDA의 주요 목적: 데이터 이해: 데이터의 구조, 특성, 변수 간의 관계, 분포 등을 이해합니다. 데이터 정제: 누락된 데이터나 이상치를 식별하고 처리합니다. 패턴 발견: 데이터 내에 숨겨진 패턴, 관계 및 규칙을 ..

자연어 처리 2023.10.12