Comments (2)
위의 커밋은 development version 으로, kcbert
, kowikitext
, namuwikitext
의 데이터양이 많기 때문에 파일의 1000 줄만 이용하여 데이터를 만들도록 hard-coding 되어 있습니다.
@ratsgo 지금 버전으로 인터페이스 및 기본적인 코드 리뷰 부탁드립니다.
아래는 두 종류의 사용예시입니다. --save_each
에 따라서 말뭉치를 하나의 파일에 저장할지, 각 코퍼스별로 별도의 파일에 저장할지 나뉘어집니다. --multilingual
이면 번역 데이터의 경우 한국어의 번역대상 언어도 포함합니다.
(script)
git checkout dev-lmdata#65
python setup.py install
korpora lmdata \
--corpus all \
--output_dir ~/local/train/ \
--multilingual
(print message)
| Done | Corpus name | Num sents | File name |
| ---- | ------------------------- | ---------- | --------- |
| x | kcbert | 1000 | all.train |
| x | korean_chatbot_data | 23646 | all.train |
| x | korean_hate_speech | 2042260 | all.train |
| x | korean_parallel_koen_news | 194246 | all.train |
| x | korean_petitions | 867262 | all.train |
| x | kornli | 1900708 | all.train |
| x | korsts | 17256 | all.train |
| x | kowikitext | 1582 | all.train |
| x | namuwikitext | 2081 | all.train |
| x | naver_changwon_ner | 90000 | all.train |
| x | nsmc | 200000 | all.train |
| x | question_pair | 13776 | all.train |
(script)
git checkout dev-lmdata#65
python setup.py install
korpora lmdata \
--corpus all \
--output_dir ~/local/train/ \
--multilingual \
--save_each
(print message)
| Done | Corpus name | Num sents | File name |
| ---- | ------------------------- | ---------- | ------------------------------- |
| x | kcbert | 1000 | kcbert.train |
| x | korean_chatbot_data | 23646 | korean_chatbot_data.train |
| x | korean_hate_speech | 2042260 | korean_hate_speech.train |
| x | korean_parallel_koen_news | 194246 | korean_parallel_koen_news.train |
| x | korean_petitions | 867262 | korean_petitions.train |
| x | kornli | 1900708 | kornli.train |
| x | korsts | 17256 | korsts.train |
| x | kowikitext | 1582 | kowikitext.train |
| x | namuwikitext | 2081 | namuwikitext.train |
| x | naver_changwon_ner | 90000 | naver_changwon_ner.train |
| x | nsmc | 200000 | nsmc.train |
| x | question_pair | 13776 | question_pair.train |
@ratsgo 모두의 말뭉치는 Korpora.load()
기능 구현 후 추가작업을 할 예정입니다.
from korpora.
--n_samples
,--min_length
,--max_length
기능은Korpora
에서 제공--n_samples
가<1
float 일 경우 sample ratio
--deduplicate
기능은korpora-preprocessing
에서 제공
from korpora.
Related Issues (20)
- [Corpus] Common crawl ko HOT 3
- [Corpus] Update kowikitext version v2 -> v3
- [Release] Korpora==0.3.0
- lmdata 태스크에 AIHub, 모두의 말뭉치 데이터셋도 사용이 가능하면 좋겠습니다. HOT 14
- Question_pair dataset version HOT 1
- 공개 스피치 데이터셋(AIHub, ClovaCall)의 경우, 추가가 가능할지 궁금합니다. HOT 4
- AIHub 추가 데이터 리스트
- Korpus 에 `get_corpus_path` 를 classmethod 로 추가
- 모두의 말뭉치 (메신저, 구어, 웹) 말뭉치 수정 버전, 데이터 로더 확인
- 모두의 말뭉치 신규/수정 말뭉치 배포
- namuwikitext 파싱 오류
- KoWikiText LM data 생성 이슈 HOT 1
- Korpora.load 시 SLL 오류 이슈 HOT 3
- Korpora.fetch('korean_chatbot_data') HTTP error 404 HOT 3
- 국립국어원 "개체명 분석 말뭉치 2020" 데이터에 modu_ne 로더 사용시 오류 발생
- 영화 자막 한영 병렬 말뭉치 document 오타
- README.md의 From source 설치 실패 및 대안 제시 HOT 1
- korpus_question_pair.py의 url이 유효하지 않습니다. HOT 1
- korean_chatbot_data 를 fetch로 받을 시 HTTPError: HTTP Error 404: Not Found가 뜹니다. HOT 2
- 모두의 말뭉치 누리집 URL 변경 요청드립니다.
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from korpora.