Giter VIP home page Giter VIP logo

corpus's People

Contributors

anastasiia-khab avatar arysin avatar dchaplinsky avatar mariana-romanyshyn avatar mariana-scorp avatar obsh avatar olishkevych avatar olvija avatar vstarko avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

corpus's Issues

Q: сам/самий

ВЕСУМ:

сам adj:m:v_naz:&pron:def # сам, сами́й
    самий adj:m:v_naz:&pron:def # сами́й

самий adj:m:v_naz:&pron:def # са́мий

Теоретично критерії досить чіткі:

  1. наголос, схоже для сам/самий наголос завжди на другому складі
  2. якщо можна поміняти на «сам», то лема «сам»

Тобто «на самому велотреці було людно» - тут са́мому не звучить, і можна сказати «на сам велотрек я приїхав» схоже «само́му» і лема «сам». Але якщо дивитися на фразу «на самому початку» то є сумніви, бо:

  1. з одного боку краще звучить «на само́му початку» і можна (мабуть) сказати «поставив на сам початок», але
  2. з іншого боку у СУМі у статті http://sum.in.ua/s/samyj дають приклад: «До са́мого краю» (край і початок мають схожу семантику); і ще є проблема що можна сказати «прийшов на сам край». Чи тут вжиток «сам» у значенні «са́мий» є застарілим/розмовним??

Q: прибрати теги ranim/rinanim

Цей тег є не суто морфологічним, а комбінаторним — вказує на сполучуваність.

Але наразі багато правил в LT його використовують і модель TagText працює з ним значно краще.

Прибрати зайві теги <foreign>

Теги часто зайві, зокрема:

  1. там ще це частина українського слова: HR-відділ
  2. там це слова отримують теги noninfl:foreign (або unclass в майбутньому) - GoGlobal і т.ін.

Q: noun vs prep/adv (шляхом і способом)

шляхом (чого) у нас prep
але способом (чого) у нас noun

також у нас є prep, які трансформувалися з noun:
коло
край
кінець
поперек
протягом

також є гуртом adv, але «пішли всім гуртом» - noun

Використання Браунського корпусу української мови як джерела для Mozilla Common Voice

Дуже дякую вам за роботу над Браунським корпусом української мови.

Вам напевно відомо про проект Mozilla Common Voice ¹ ², що покликаний зробити технології розпізнавання голосу доступними для всіх. Станом на сьогодні готовність української мови у проекті досягла 50% і хоча мені не відомі фактичні деталі справи, можна припустити, що може мати місце певна нестача текстового матеріалу для начитування. Хай там що, спала мені думка використати ваш Браунський корпус української мови у якості текстового джерела для Common Voice, але виникло питання законності.

БрУК розповсюджується за ліцензією Creative Commons BY-NC-SA ³, проте деякі джерела використаних текстів розповсюджують свої твори за несумісними з Creative Commons ліцензіями. Наприклад, Газета.ua ⁴, Крим.Реалії ⁵ або The Insider ⁶. Я навів абсолютно випадковий перелік джерел, просто перевірив ті, що спали на очі.

Ви домовлялись з джерелами про особливі умови використання текстів чи я невірно розумію що саме зі складу БрУКу ліцензується за Creative Commons BY-NC-SA? Буду дуже вдячним якщо ви зможете прояснити ці питання і розвіяти мої сумніви :)

Сподіваюсь ми зможемо скористатись вашим чудовим проектом для розбудови іншого чудового проекту.

¹ https://voice.mozilla.org/uk
² https://voice-sprint.mozilla.community/
³ https://github.com/brown-uk/corpus
https://gazeta.ua/ (внизу сторінки)
https://ua.krymr.com/p/4554.html
http://www.theinsider.ua/reprinting-rules/

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.