Giter VIP home page Giter VIP logo

sberbdrqareader's Introduction

Обучение модели

  1. Скачайте файл с векторным представлением слов, готовые модели вы можете найти на сайте http://rusvectores.org/ru/models/ или выполните scripts/reader/download_w2v.sh

  2. Трансформируйте файл с представлениями слов в текстовый формат: для этого выполните все ячейке в ноутбуке scripts/reader/BinaryW2VToSpaceSepartor.ipynb

  3. Конвертируйте данные в формат, подходящий для обучения: PYTHONPATH=.:$PYTHONPATH python3 scripts/reader/preprocess.py --tokenizer SimpleTokenizer train.csv data/datasets/output_filename.json

  4. Разделите файл на обучающую выборку и валидационную

  5. В scripts/reader/train.sh вы можете найти пример запуска обучения модели

  6. После обучения можете делать сабмит: [scripts/reader/train.sh](sh create_zip.sh) положит все необходимые файлы (убедитесь, что среди них есть модель, если вы переименовали модель незабудьте )

  7. Также вы можете запустить сессию в интерактивном режиме PYTHONPATH=.:$PYTHONPATH python3 scripts/reader/interactive.py --model models/20171007-1ce20c3f.mdl

Параметры обученной модели

Текст разбивается на токены с помощью простейшего регулярного выражения (см drqa/reader/simple_tokenizer.py) Все слова приводятся к леммам с помощью pymorphy2, переводятся в lowercase и кодируются соответствующими word2vec-представлениями. Информация о частях речи, именованных сущностях и т.д. не используется.

Слова, которых нет в предобученном word2vec игнорируются.

В качестве валидационной метрики используется exact_match - число полностью верных ответов на вопросы.

На этапе применения модели учитываются только те слова, что встречались в тренировочных данных.

sberbdrqareader's People

Contributors

gavrmike avatar kiselev1189 avatar

Stargazers

Nikolay Shebanov avatar Dmitry Abulkhanov avatar Evgeny Semyonov avatar

Watchers

 avatar James Cloos avatar  avatar Dmitry Abulkhanov avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.