Comments (3)
#2 와 같은 이슈
from soynlp.
#18 은 글자가 생략된 경우이며, #35 와 #2 는 글자가 추가된 경우
from soynlp.
-
대화체에서 'ㄷ, ㅂ, ㅅ, ㅇ, ㅋ, ㅎ' 가 어절의 종성에 포함되는 경우가 있음
(아닏, 아닙, 아닛, 아닝, 아닠, 아닣)
(그랟, 그랩, 그랫, 그랭, 그랰, 그랳) -
위 경우에는 이모티콘으로 생각되는 6 개의 종성을 제거한 뒤 다시 한 번 lemmatize 를 함으로써 이모티콘에 의한 오탈자를 교정함
from soynlp.lemmatizer import lemma_candidate_chat
lemma_candidate_chat('그랳', '', debug=True)
마지막 종성이 이모티콘으로 의심되는 경우: 그래 + ()
ㅂ 불규칙 활용: 그랩 +
ㅎ 축약 불규칙 활용: 그렇 + 아
{('그렇', '아')}
from soynlp.
Related Issues (20)
- WordExtractor refactoring
- PMI refactoring HOT 1
- Bigram refactoring HOT 1
- PMI 함수의 위치 변경
- Normalizer refactoring
- CI 적용
- NewsNounExtractor 내 지역 변수 선언 관련 오류 HOT 1
- NewsNounExtractor base_noun_dictionary argument 사용 시 오류 HOT 3
- 명사 추출기에서 기구축된 사전을 base dictionary로 활용 HOT 1
- vectorizer 가 있으면 편리할 것 같습니다.
- 규칙기반 명사 추출 후처리 기능을 선택적으로 이용할 수 있으면 편리할 듯 합니다.
- 데이터프레임에서 특정 컬럼값 적용시 local변수 에러 발생..
- emoticon_normalize 관련 문제
- sent_to_word_contexts_matrix 내 dynamic_weight 관련 문제 HOT 6
- noun_extractor 문의
- postagger refactoring
- vectorizer refactoring
- tokenizer refactoring
- poetry, pre-commit 도입
- _noun_postprocessing.py 에서 josapath, suffixpath 코드 수정 건의
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from soynlp.