- Обработка файлов(формируем выборку из html страниц): 1
- Формирование DataFrame
- Исправление орфографии
- Подсчет расстояние Левенштейна
- Токенизация
- Инициализация токенайзера для обработки текста
- Определение максимальной длины
- Обучение токенайзера
- Токенизация текста
- Модель
- Создание RNN модели и её компиляция
- Обучение модели на датасете
- Пользователь может воспользоваться онлайн сервисом Google Colab для запуска ноутбука или же установить Jupyter Notebook.
- Необходимо скачать и запустить ноутбук с нашего репозитория на GitHub. Для этого можно скачать скачать архив. Если вы выбрали Google Colab, то необходимо перетащить файлы из архива в меню управления файлами (значок папки в левой части экрана). Иначе если вы пользуетесь Jupyter Notebook, то достаточно распаковать архив и открыть папку в самом Jupyter.
- Дальше следуйте инструкциям в самом ноутбуке.