Giter VIP home page Giter VIP logo

squeeze's Introduction

Squeeze

Обновление баз: update.py

Запуск обучения: training.py

Запуск алгоритма: squeeze.py

Форма заполнения базы

Модули

Основное

Номер модуля Название файла Описание
A1 parse.py Разбор текста на слова и знаки, установка связи и подчинений, устанавливается роль каждого слова. Объединение в предложения.
A2 style.py Определения стиля текста, настроения, главной темы, тип, уровень цензуры.
A3 literacy.py Проверка грамотности и логичности. Изменение логических связей между словами. Восстановление форм слов.
A4 add.py Дополнение информацией из других источников.

Обработка алгоритмами

Номер модуля Название файла Описание
B1 Замена фразеологизмов, повторений.
B2 Удаление и обобщение конкретики, уточнений, пояснений. Объединение предложений по смыслу.
B3 Удаление примечаний, дополнений, отсылок.

Машинное обучение

Номер модуля Название файла Описание
C1 treatment.py Обработка текста нейронными сетями: сокращение, обобщение.
C2 update.py Создание и обновление файлов для обучения нейронной сети.
C3 training.py Обучение нейронной сети на базе текстов.

Формат данных

Данные для обучения

Данные Исходные Обработанные
Входные input.txt input.csv
Выходные output.txt output.csv

После обработки parse

mas - список экземпляров класса - текст (список предложений)

mas[i].number - номер предложения

mas[i].count - количество слов без знаков

mas[i].word - список экзампляров класса - предложение (список слов)

mas[i].word[j]['original'] - оригинальное слово / знак

mas[i].word[j]['change'] - на что заменим

mas[i].word[j][‘infinitive’] - инфинитив

mas[i].word[j]['speech'] - часть речи

mas[i].word[j]['sentence'] - член предложения

mas[i].word[j]['case'] - падеж

mas[i].word[j]['number'] - число

mas[i].word[j]['gender'] - род

mas[i].word[j]['language'] - язык оригинала

mas[i].word[j]['numsp'] - номер предложения в тексте

mas[i].word[j]['deep'] - смысловая глубина предложения (уровень уточнения)

Части речи

Граммема Значение Примеры
noun имя существительное хомяк
adjf имя прилагательное (полное) хороший
adjs имя прилагательное (краткое) хорош
comp компаратив лучше, получше, выше
verb глагол (личная форма) говорю, говорит, говорил
infn глагол (инфинитив) говорить, сказать
prtf причастие (полное) прочитавший, прочитанная
prts причастие (краткое) прочитана
grnd деепричастие прочитав, рассказывая
numr числительное три, пятьдесят
advb наречие круто
npro местоимение-существительное он
pred предикатив некогда
prep предлог в
conj союз и
prcl частица бы, же, лишь
intj междометие ой
sign знаки препинания , . ! ?! … : ;
numb числа 0 1 1F

Члены предложений

Граммема Значение
subject подлежащее
predicate сказуемое

Падежи

Граммема Значение Пояснение Примеры
nomn именительный кто? что? хомяк ест
gent родительный кого? чего? у нас нет хомяка
datv дательный кому? чему? сказать хомяку спасибо
accs винительный кого? что? хомяк читает книгу
ablt творительный кем? чем? зерно съедено хомяком
loct предложный о ком? о чём? и т.п. хомяка несут в корзинке
voct звательный его формы используются при обращении к человеку Саш, пойдем в кино
gen2 второй родительный (частичный) ложка сахару (gent - производство сахара); стакан яду (gent - нет яда)
acc2 второй винительный записался в солдаты
loc2 второй предложный (местный) я у него в долгу (loct - напоминать о долге); висит в шкафу (loct - монолог о шкафе); весь в снегу (loct - писать о снеге)

Полный список (OpenCorpora)

Язык

Граммема Значение
ru Русский
en English

Полный список (639-1 коды)

Не исправлено

  1. Определение членов предложения: дополнение, ...
  2. Определение частей речи в нужной форме слова
  3. Ассоциировать корпус со своей базой данных для смысловой глубины
  4. Слишком долгое определение языка
  5. Установление соответствий между открывающими и закрывающими знаками
  6. Распознание названий, имён, фамилий для заглавных букв
  7. Знак тире (–) не объединяется
  8. Символ \ в большом количестве объединяет и не указывает тип
  9. В онлайн форме не добавляются тексты с ‘

squeeze's People

Contributors

kosyachniy avatar

Watchers

James Cloos avatar George Grigorev avatar

squeeze's Issues

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.