Giter VIP home page Giter VIP logo

practical_rl_public's People

Contributors

ai-ahmed avatar alexeyhorkin avatar alien-kz avatar anton-br avatar arogozhnikov avatar clockware avatar dmittov avatar dniku avatar fritz449 avatar guitaricet avatar jheuristic avatar justheuristic avatar kharitonov-ivan avatar kirili4ik avatar kventinel avatar mknbv avatar nickveld avatar nkdhny avatar omrigan avatar q0o0p avatar qwasser avatar razoralm avatar re9ulus avatar say4n avatar scitator avatar shabbirk avatar tigerneil avatar vovcick avatar yhn112 avatar zshrav avatar

Stargazers

 avatar

Watchers

 avatar  avatar

practical_rl_public's Issues

(week03) what to improve

  1. Softmax в базовую часть.. Большинство студентов делает этот бонус, предлагаю его сделать основным. Многие студенты ошибаются в нем, реализуя только метод get_value.

  2. Добавить метод get_policy в QLearningAgent возвращающий распределение вероятностей на действия при выбранной политике (softmax, $\epsilon$ greedy, их комбинацию)

  3. Графики с различными epsilon и tau. Студенты пытаются сравнить агентов при разных параметрах, в книге Sutton Barto приводятся красивые графики в зависимости от этих параметров.

  4. Сравнение exploration стратегий в бонусе их предлагается сравнить, но у студентов возникают трудности с подбором epsilon и tau. Надо добавить заметку или код, который указывает какими они должны быть.

  5. Бинаризация - задание интересно тем что показывает как использовать wrapper для observation, что в свою очередь очень крутой практичный скилл. Но большинство студентов им не заинтересовывается и сдает работу с np.round(1). Так же непонятна интерпретация разброса reward на графике.

  6. Exp replay- похожая ситуация что и с бинаризацией.

  7. Опять графики - может добавить график параметра стратегии?

  8. Recap лекции. Осветить on/off policy, \epsilon greedy и softmax. Как анализировать? Regret

  9. Опять графики - 5000 итераций многовато. Может лучше 2000

  10. Распределить задание между ноутбуками. Есть 2 стула:

    1. сделать как в курсере
    2. слить все в один ноутбук - мотивация: проверять 2 ноутбука у студента дольше чем 1 ноутбук (правда проверка носит скорее механический характер)
  11. Добавить тест в лекцию по принципу как вот здесь

Disclaimer - эти заметки надо поревьювить.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.