Giter VIP home page Giter VIP logo

news-corpus's People

Contributors

binhvq avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

news-corpus's Issues

Lỗi server 103.140.38.25

Sorry anh, có phải server đang down không ạ? Từ hôm qua (12/06/2021) em không còn tải được data từ domain 103.140.38.25

210613152204

Anh kiểm tra giúp em với ạ, cảm ơn anh nhiều ạ

Can not download CSV Data

Hi Binh,
First of all, thank you for this great work.
I downloaded the full_text version and looked at the data, it seems like you put all articles together without an empty line between them. So there is no way to split article.
Therefore, I want to download the CSV version hoping it is article-separable. But couldn't access the link you gave. Could you fix it and update the README or drop a new link here, please? Thanks in advance.

Requesting more recent dataset

Dear anh Bình và team,
Em là Thành, đã từng request 1 version dataset của anh 2 năm trước #5. Nhờ bộ dataset đó em và cộng đồng đã có thể train rất nhiều model cho tiếng Việt.
Em mở issue này để hỏi liệu anh có thể release bộ dataset up-to-date nhất được không ạ? Em có thể hỗ trợ phần clean up và tạo huggingface dataset cho bộ dữ liệu này.
Về sau em cũng mong muốn có thể lấy dump của dataset này e.g monthly để có thể train những model mới hơn.
Em cảm ơn anh và team!

Script chuẩn hóa demo-full.txt

Anh có thể public source code chuẩn hóa để tạo file có format như demo-full.txt không ạ ?
Em đang chuẩn hóa bộ dữ liệu 21/05 và muốn reproduce lại pipeline chuẩn hóa cũ và có thể cải thiện thêm.
Em cảm ơn anh nhiều ạ.

Cập nhật bộ dữ liệu news-corpus

Em muốn hỏi là sắp tới anh có kế hoạch update bộ dữ liệu này không ạ? Em đang thấy bộ dữ liệu news-corpus hiện tại là dump đến 2018/12/17 chưa có các thông tin về Covid19, về tổng thống Mỹ mới, ...

Cảm ơn anh Bình và team đã public bộ dữ liệu này cho cộng đồng.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.