형태소 분석 예제

형태소 분석 및 Lemmatization은 추가 처리를 위해 텍스트, 단어 및 문서를 준비하는 데 사용되는 자연어 처리 분야의 텍스트 정규화(또는 Word 정규화라고도 함) 기술입니다. 형태소 분석과 레마화는 연구되었으며, 알고리즘은 1960년대부터 컴퓨터 과학에서 개발되었습니다. 이 튜토리얼에서는 배경, 일부 유명한 알고리즘, 형태소 분석 및 Lemmatization의 응용 프로그램 및 Python을 사용하여 단어, 문장 및 문서를 줄기및 레밍하는 방법을 다루는 실용적인 접근 방식으로 형태소 분석 및 Lemmatization에 대해 배우게됩니다. 자연어 처리 작업에 대한 파이썬에서 제공하는 자연어 도구 키트 패키지입니다 nltk 패키지. 확률 알고리즘은 확률을 사용하여 단어의 루트 형태를 식별하는 것을 포함합니다. 확률 알고리즘은 확률 모델을 개발하기 위해 형태 관계를 굴절시키기 위해 루트 형식 테이블에서 학습 («학습»)됩니다. 이 모델은 일반적으로 접미사 스트리핑 또는 lemmatisation에 있는 것과 본질적으로 유사한 복잡한 언어 규칙의 형태로 표현됩니다. 형태소 분석은 학습된 모델에 굴절된 형태를 입력하고 모델이 내부 규칙 집합에 따라 루트 양식을 생성하도록 함으로써 수행되며, 이는 접미사 제거 및 레머화와 유사합니다. 가장 적절한 규칙, 또는 단어를 줄기 그냥 같은 단어를 반환할지 여부, 또는 두 개의 서로 다른 규칙을 순차적으로 적용할지 여부는 출력 단어가 정확할 확률이 가장 높다는 이유로 적용됩니다(즉, 말하자면 , 일반적으로 측정되는 방법입니다 잘못된 것의 가장 작은 확률입니다).

형태소 분석은 도메인 분석에서 도메인 어휘를 결정하는 데 사용됩니다. [14] 이 튜토리얼은 파이썬 nltk에서 다른 언어로 사용할 수있는 다른 줄기 를 볼 수 있습니다. 영어의 경우, 포터스태머 또는 랭커스터스태머, 포터스템머 중에서 선택할 수 있으며, 1979년에 처음 개발된 가장 오래된 언어입니다. 랭커스터스템머는 1990년에 개발되었으며 포터 형태소 분석 알고리즘보다 더 공격적인 접근 방식을 사용합니다. 의 단어를 줄기 위해 PorterStemmer를 시도하자, 그리고 그와 함께 당신은 단어를 형태소 분석하는 방법을 볼 수 있습니다. 이 튜토리얼은 포터 스템머와 랭커스터 스템머 (Paice-Husk 스템머)로 알려진 알고리즘에 깊이 가지 않을 것입니다,하지만 당신은 그들의 장점과 단점을 볼 수 있습니다. 새로운 단어가 발견되면, 그것은 새로운 연구 기회를 제시 할 수 있습니다. 종종 가장 좋은 결과는 단어의 기본 형태 형태인 lemma를 사용하여 얻을 수 있습니다. lemma를 찾기 위해 형태소 분석은 AI 시스템에서 사용할 수있는 개인 또는 알고리즘에 의해 수행됩니다.

형태소 분석은 다양한 접근 방식을 사용하여 어떤 굴절된 형태가 발생하든 단어를 기본으로 줄입니다. 형태소 분석 및 Lemmatization은 NLP자체의 형태이며 텍스트 마이닝에서 널리 사용됩니다. 텍스트 마이닝은 자연어로 작성된 텍스트를 분석하고 텍스트에서 고품질 정보를 추출하는 프로세스입니다. 여기에는 텍스트에서 흥미로운 패턴을 찾거나 데이터베이스에 삽입할 텍스트에서 데이터를 추출하는 작업이 포함됩니다. 텍스트 마이닝 작업에는 텍스트 분류, 텍스트 클러스터링, 개념/엔터티 추출, 세분화된 분류, 감정 분석, 문서 요약 및 엔터티 관계 모델링(예: 명명된 엔터티 간의 학습 관계)이 포함됩니다. 개발자는 텍스트에서 유용한 정보를 얻기 위해 어휘 분석, POS(음성 부분) 태그 지정, 형태소 분석 및 기타 자연어 처리 기술을 사용하여 텍스트를 준비해야 합니다. 문서 클러스터링(또는 텍스트 클러스터링)은 텍스트 문서에 클러스터 분석을 적용한 것입니다.