Comments (4)
스피치 데이터에 대해서도 Korpora 범위에 포함할지 고민을 하고 있었습니다. 하지만 데이터의 형식이 "텍스트" 와 "음원"으로 다르기 때문에 동일한 Korpora 패키지 안에서 진행하는게 좋을지는 고민입니다.
@hwiorn 님은 어떻게 생각하시나요?
from korpora.
스피치 데이터 셋이 실 대화 데이터이기 때문에, 이 데이터로 LM용 학습 데이터를 다루는 분들은 따로 파서를 만들어 사용하고 있는데, Text를 읽어들이는 로더 기능 만을 제공하는 쪽이라면 현재 계획하시는 프로젝트 목적에 맞지 않을까 싶습니다. 자연어 처리를 쉽게 다루기 위해 만들어진 Korpora 성격상, 제 개인적인 생각으로는 "음원"까지 다루는 것은 아직은 아닌 것 같습니다.
from korpora.
이 데이터로 LM용 학습 데이터를 다루는 분들은 따로 파서를 만들어 사용하고 있는데, Text를 읽어들이는 로더 기능 만을 제공하는 쪽이라면 현재 계획하시는 프로젝트 목적에 맞지 않을까 싶습니다.
@hwiorn 님의 생각에 동의합니다. Korpora==0.3.0 (#187 ) 에 이 내용 반영하면 좋을 듯 합니다. 제보 감사합니다.
from korpora.
AIHub에서 전사 스크립트에 대해서 따로 KsponSpeech_scripts
파일로 제공하고 있습니다.
해당 파일만 사용하면, 전체 데이터셋(음원 포함)을 다운받을 필요가 없을 것 같습니다.
https://www.aihub.or.kr/aidata/105/download
from korpora.
Related Issues (20)
- [Corpus] Common crawl ko HOT 3
- [Corpus] Update kowikitext version v2 -> v3
- [Release] Korpora==0.3.0
- lmdata 태스크에 AIHub, 모두의 말뭉치 데이터셋도 사용이 가능하면 좋겠습니다. HOT 14
- Question_pair dataset version HOT 1
- AIHub 추가 데이터 리스트
- Korpus 에 `get_corpus_path` 를 classmethod 로 추가
- 모두의 말뭉치 (메신저, 구어, 웹) 말뭉치 수정 버전, 데이터 로더 확인
- 모두의 말뭉치 신규/수정 말뭉치 배포
- namuwikitext 파싱 오류
- KoWikiText LM data 생성 이슈 HOT 1
- Korpora.load 시 SLL 오류 이슈 HOT 3
- Korpora.fetch('korean_chatbot_data') HTTP error 404 HOT 3
- 국립국어원 "개체명 분석 말뭉치 2020" 데이터에 modu_ne 로더 사용시 오류 발생
- 영화 자막 한영 병렬 말뭉치 document 오타
- README.md의 From source 설치 실패 및 대안 제시 HOT 1
- korpus_question_pair.py의 url이 유효하지 않습니다. HOT 1
- korean_chatbot_data 를 fetch로 받을 시 HTTPError: HTTP Error 404: Not Found가 뜹니다. HOT 2
- 모두의 말뭉치 누리집 URL 변경 요청드립니다.
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from korpora.