Обновление баз: update.py
Запуск обучения: training.py
Запуск алгоритма: squeeze.py
Номер модуля | Название файла | Описание |
---|---|---|
A1 | parse.py | Разбор текста на слова и знаки, установка связи и подчинений, устанавливается роль каждого слова. Объединение в предложения. |
A2 | style.py | Определения стиля текста, настроения, главной темы, тип, уровень цензуры. |
A3 | literacy.py | Проверка грамотности и логичности. Изменение логических связей между словами. Восстановление форм слов. |
A4 | add.py | Дополнение информацией из других источников. |
Номер модуля | Название файла | Описание |
---|---|---|
B1 | Замена фразеологизмов, повторений. | |
B2 | Удаление и обобщение конкретики, уточнений, пояснений. Объединение предложений по смыслу. | |
B3 | Удаление примечаний, дополнений, отсылок. |
Номер модуля | Название файла | Описание |
---|---|---|
C1 | treatment.py | Обработка текста нейронными сетями: сокращение, обобщение. |
C2 | update.py | Создание и обновление файлов для обучения нейронной сети. |
C3 | training.py | Обучение нейронной сети на базе текстов. |
Данные | Исходные | Обработанные |
---|---|---|
Входные | input.txt | input.csv |
Выходные | output.txt | output.csv |
mas - список экземпляров класса - текст (список предложений)
mas[i].number - номер предложения
mas[i].count - количество слов без знаков
mas[i].word - список экзампляров класса - предложение (список слов)
mas[i].word[j]['original'] - оригинальное слово / знак
mas[i].word[j]['change'] - на что заменим
mas[i].word[j][‘infinitive’] - инфинитив
mas[i].word[j]['speech'] - часть речи
mas[i].word[j]['sentence'] - член предложения
mas[i].word[j]['case'] - падеж
mas[i].word[j]['number'] - число
mas[i].word[j]['gender'] - род
mas[i].word[j]['language'] - язык оригинала
mas[i].word[j]['numsp'] - номер предложения в тексте
mas[i].word[j]['deep'] - смысловая глубина предложения (уровень уточнения)
Граммема | Значение | Примеры |
---|---|---|
noun | имя существительное | хомяк |
adjf | имя прилагательное (полное) | хороший |
adjs | имя прилагательное (краткое) | хорош |
comp | компаратив | лучше, получше, выше |
verb | глагол (личная форма) | говорю, говорит, говорил |
infn | глагол (инфинитив) | говорить, сказать |
prtf | причастие (полное) | прочитавший, прочитанная |
prts | причастие (краткое) | прочитана |
grnd | деепричастие | прочитав, рассказывая |
numr | числительное | три, пятьдесят |
advb | наречие | круто |
npro | местоимение-существительное | он |
pred | предикатив | некогда |
prep | предлог | в |
conj | союз | и |
prcl | частица | бы, же, лишь |
intj | междометие | ой |
sign | знаки препинания | , . ! ?! … : ; |
numb | числа | 0 1 1F |
Граммема | Значение |
---|---|
subject | подлежащее |
predicate | сказуемое |
Граммема | Значение | Пояснение | Примеры |
---|---|---|---|
nomn | именительный | кто? что? | хомяк ест |
gent | родительный | кого? чего? | у нас нет хомяка |
datv | дательный | кому? чему? | сказать хомяку спасибо |
accs | винительный | кого? что? | хомяк читает книгу |
ablt | творительный | кем? чем? | зерно съедено хомяком |
loct | предложный | о ком? о чём? и т.п. | хомяка несут в корзинке |
voct | звательный | его формы используются при обращении к человеку | Саш, пойдем в кино |
gen2 | второй родительный (частичный) | ложка сахару (gent - производство сахара); стакан яду (gent - нет яда) | |
acc2 | второй винительный | записался в солдаты | |
loc2 | второй предложный (местный) | я у него в долгу (loct - напоминать о долге); висит в шкафу (loct - монолог о шкафе); весь в снегу (loct - писать о снеге) |
Граммема | Значение |
---|---|
ru | Русский |
en | English |
- Определение членов предложения: дополнение, ...
- Определение частей речи в нужной форме слова
- Ассоциировать корпус со своей базой данных для смысловой глубины
- Слишком долгое определение языка
- Установление соответствий между открывающими и закрывающими знаками
- Распознание названий, имён, фамилий для заглавных букв
- Знак тире (–) не объединяется
- Символ \ в большом количестве объединяет и не указывает тип
- В онлайн форме не добавляются тексты с ‘