sokirko74 / aot Goto Github PK

Seman is a set of linguistic tools to analyze Russian or German texts, it contains lexicons and grammars. The project is interesting as a base line for many research projects in computer linguistics area.

Home Page: http://aot.ru

License: GNU Lesser General Public License v2.1

Tcl 9.37% Batchfile 0.02% Shell 0.01% CMake 0.51% Awk 0.01% C++ 44.11% C 2.47% HTML 41.49% Lex 0.01% Yacc 0.09% Perl 0.75% Python 0.08% CSS 0.23% JavaScript 0.55% Java 0.18% Hack 0.12% Ruby 0.01%

aot's People

Contributors

Stargazers

Watchers

Forkers

andruxa-smirnov a1ip name212 faustoff serj2list peshitepisma pogrebnoj-alexandroff vontikov dualword agcr alexdmitriychuk blackchaose onyxmaster

aot's Issues

добавить в описание

по почте ответ не получил.
значения, не описанные в мануале
аббр //аббревиатура
мр-жр //есть такие варианты: мр-жр, жр, мр чем они отличаются?
указат //указатель
ФРАЗ //нет вариантов
прев //превосходная степень
притяж //притяжательное
разг //разговорная форма
ПОСЛ //нет вариантов

Проваленные тесты

Собирал в Альт Линукс К10.1
Компилятор: x86_64-alt-linux-g++ (GCC) 10.3.1 20210703 (ALT Sisyphus 10.3.1-alt2)

Для сборки пришлось закомментировать строки в файле Source/CMakeLists.txt

17 #set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -lstdc++fs")
18 #SET (CMAKE_EXE_LINKER_FLAGS  "${CMAKE_EXE_LINKER_FLAGS} -pthread -lstdc++fs -static")

Так как при сборке возвращаются ошибки, что не найдены библиотеки stdc++fs, pthread, stdc++, c (библиотеки являются системными и компилятор насколько я понимаю сам решает откуда их брать и надо ли их линковать, поэтому после комментирования все собралось)

Получил после команды make test следующий список проваленных тестов:
13 - Morphan_Russian_predict.txt_cmp (Failed)
97 - Mapost_Russian_fio.txt_cmp (Failed)
99 - Mapost_Russian_hom.txt_cmp (Failed)
100 - Mapost_Russian_indecline.txt_cmp (Failed)
103 - Mapost_Russian_other.txt_cmp (Failed)
104 - Mapost_Russian_redub.txt_cmp (Failed)
105 - Mapost_Russian_seminouns.txt_cmp (Failed)
109 - Synan_Russian_adj_noun.txt_cmp (Failed)
110 - Synan_Russian_adv.txt_cmp (Failed)
111 - Synan_Russian_ambig.txt_cmp (Failed)
112 - Synan_Russian_clauses.txt_cmp (Failed)
113 - Synan_Russian_conj.txt_cmp (Failed)
115 - Synan_Russian_numbers.txt_cmp (Failed)
117 - Synan_Russian_subdue.txt_cmp (Failed)
119 - Synan_Russian_unsorted.txt_cmp (Failed)
120 - Synan_Russian_very_long.txt_cmp (Failed)
124 - Seman_Russian_collocs.txt_cmp (Failed)
125 - Seman_Russian_comparative.txt_cmp (Failed)
132 - Seman_Russian_corpora100.txt_cmp (Failed)

Обнаружена ошибка, распространяемая в инете

Плавчиха, как и плавец, должны писать через букву «А» и проверочные однокоренные и родственные слова — пла́вать, впла́вь, поплаво́к, пла́вки, пла́вательный, пла́вающий... а не плов и/или пловец (рисовая каша с мясом).

Сленг

Коллеги, применяя ваш замечательный инструмент (в Ява версии) к компьютерной тематике, выяснил, что есть много сленговых слов, которые не распознаются. Может быть, их возможно добавить? Или сделать отдельный блок сленговых слов...

Вот список того, на чём программа споткнулась.

аватар
автозаказа
автозапчастей
автоматизатор
автоматизируемости
автомойки
автоскрипты
автотестов
автотесты
агрегатор
адаптив
адванта
админки
админская
админской
алертинг
алтгту
амазон
аникс
анимаций
апдейт
апдейта
апи
атрибутирование
атрибутирования
аутсорсерами
ачивки
ачивку
багфикс
бакапирование
банкинга
бекэндером
беларусбанком
билд
биткоинов
битрикс
блога
блоггеров
букинга
бэк
бэка
бэкапы
бэкенд
бэкенда
бэкенде
бэклог
бэклога
бэковой
бэку
бэкэнда
валидации
валидация
валидировать
вебинаров
вебсокеты
версионности
видеонаблюдения
видеоуроки
виджет
виджеты
виртуализации
военмех
волоконно
воркеров
воркеры
высоконагруженные
высоконагруженными
высоконагруженных
вэд
гайдлайнов
гайдов
гео
геоданными
геоданных
геолокации
гидрировались
гипермаркет
грандриал
гридах
гус
дебага
девопс
дедлайну
денормализацию
деплой
деплоймента
деплоя
десктоп
десктопа
десктопное
дефектуры
диадок
диванов
докачки
домофон
домофона
домофонной
ефарма
задокументировать
имплементация
инстаграм
интервьюирование
интернейшнл
инфо
инфографик
кастомные
кастомных
категоризации
кликабельный
кодинг
кодревью
коммитов
компетенс
копицентр
креаторы
крешлогам
криптовалют
криптовалюте
криптовалютой
криптовалюты
кроссбраузерная
кроссбраузерной
кроссплатформенная
крэшей
кубгау
легаси
лендинг
лендинги
логи
логирование
логирования
маинтейнер
майнинга
маппинг
маринский
маркетплейс
маркетплейса
маркетплейсов
маршрутка
математико
мегапро
менторство
механико
микро
микросервисная
микросервисной
микросервисную
микросервисных
микросервисов
микросервисы
микросервсисную
микрофронтендами
микрофронтенде
микрофронтендом
микрофронтовых
митапы
многопоточность
многопоточностью
моками
мокапов
монетизации
мотивированность
мультимодальная
мультимодальной
намайненную
нереляционных
одностраничников
одностраничных
оптико
оркестрации
осущствлять
отрисовка
пайплайн
пайплайна
пайплайнами
пайплайнах
пайплайнов
парсел
парсер
парсеров
парсеры
парсила
парсинг
парсинга
перепривязки
петрософт
плагин
плагинов
плагины
плейбуков
ползунова
портирование
портированный
предпродаж
придиванного
приемо
продакшене
продакшн
продуктив
продюсирование
производство
прокси
проксирование
прототипирование
процессных
раннера
ревью
редизайн
реинжиниринг
релизная
рендеринг
рендеринга
репозитарием
репортинг
рефакторил
рефакторинг
реферальную
ритейл
ритейлер
роникон
росстата
самописная
самописных
сбер
свх
селлера
серв
сергей
сиа
сиб
система
скринкасты
скуд
смартдата
смоук
созвонах
соцсети
специалитет
стейкхолдерами
сторах
стором
стрессоустойчив
стриминг
стэйдж
стэк
стэком
тестирований
тестировщик
тимлид
тимлида
тинькофф
тоир
токенов
треккинг
трудозатрат
удаленке
файберов
фараби
фармимэкс
фасетным
фиксил
финтех
фич
фичей
фичи
фишинга
фишинговых
фойницкого
фотобанка
фотобанков
франчайзи
фреймворк
фреймворка
фреймворками
фреймворки
фреймворков
фреймворком
фриланс
фрилансер
фронтенд
фронтенда
фронтенде
фронтендов
фронтэнд
фронтэнда
фронтэнду
фуллстек
чарт
чартов
челенджа
челенджам
шейринг
шиппинг
штрихкодирования
шустова
эксплорера
юзабилити
юнит

Неправильные ударения

В результате выборочной проверки русского словаря обнаружилось множество неправильно поставленных ударений и случаев непоследовательного употребления буквы Ё.

Результаты проверки ниже. Список далеко не исчерпывающий.

Откуда столько ошибок? Или я неправильно распарсил словарь?

"АРТЕМ", // нет Ё
"ЦВЕТ", // Не учтен "-" (нет мн.ч.), получается ЦВЕ<ТОВ
"АБАКА", // Не учтен "-" (нет мн.ч.), получается АБАКА<Х
"ВЗЯТЬ", // неправильное ударение взЯла
"БОЛЕУТОЛЕНИЕ", // странное ударение БОЛЕУ<ТОЛЕНЬЕ
"БОЛОТОВЕДЕНИЕ", // странное ударение БОЛОТО<ВЕДЕНЬЕ
"ВОЛЬНОДУМИЕ", // см. выше
"ВОЛЬНОЛЮБИЕ", // см. выше
"ВОЛЬНОМЫСЛИЕ", // см. выше
"ВООДУШЕВЛЕНИЕ", // см. выше
"ВОСПОЛНЕНИЕ", // см. выше
"ВОСПЛАМЕНЕНИЕ", // см. выше
"ВОСПРЕЩЕНИЕ", // см. выше
"ВОССТАНОВЛЕНИЕ", // см. выше
// что интересно, волеизъявле/ние НЕ СОДЕРЖИТ ЭТОЙ ОШИБКИ
"ВОСПЛАМЕНЯТЬ", // неправильное ударение: ВОСПЛА<МЕНЯЮЩИЙ, ВОСПЛА<МЕНЯЕМЫЙ
"ВОСПОЛНИТЬСЯ", // неправильное ударение в деепр. ВОСПОЛНЯ<СЬ
"ВПАИВАТЬ", // неправильное ударение ВПАИВА<ВШИ
"ВПИСЫВАТЬ", // неправильное ударение ВПИСЫВА<ВШИ
"ВПИТЫВАТЬ", // неправильное ударение ВПИТЫВА<ВШИ
"ВОСПРИНИМАТЬ", // неправильное ударение ВОСПРИ<НИМАЕМЫЙ
"ВОССТАНАВЛИВАТЬ", // неправильное ударение восстанавлива/вши
"ФЕДОР", // нет Ё
"ФЕДОРОВ", // нет Ё
"ИЗ-ЗА", // предлог обычно безударный
"БЕЛОЗЕРОВ", // нет Ё
"КИСЕЛЕВ", // нет Ё
"ВОРОБЬЕВ", // нет Ё
"БОЛЬНОЙ", // неправильная краткая форма БОЛЁН
"ВОЛЬНЫЙ", // неправильная краткая форма ВОЛЁН
"БОЙКИЙ", // побо/йчее
"ПОНОМАРЕВ", // нет Ё
"СЕМЕН", // нет Ё
"СЕМЕНОВ", // нет Ё
"ПОВЫЧЕРКИВАТЬ", // нет Ё
"ВОЙЛОК", // неправильное ударение Р2 ВОЙЛОКУ<
"ВОСК", // неправильное ударение Р2 ВОСКУ<
"КРЫЖОВНИК", // неправильное ударение Р2 КРЫЖОВНИКУ<
"КРЕП-ЖОРЖЕТ", // неправильное ударение Р2
"ВОРОНИТЬ", // у непереходного не должно быть форм на -СЯ (у ворОнить)
"ВРОЖДЁННЫЙ", // неправильное ударение в краткой форме врожденЕе
"ВСПУШИТЬ", // вспуше/н, вспуше/на
"ВСТРЕПЫХАТЬСЯ", // ВСТРЕПЫ<ХАЕМСЯ
"ВЫЗВЕРИТЬСЯ", // вызве/рься (правильно: вы/зверись)
"ВЫЗДОРОВЕТЬ", // выздорове/ем
"ВЫИСКАТЬ", // выи/щут, ПРАВИЛЬНО: вы/ищут
"ВЫКАРАБКАТЬСЯ", // выкара/бкаемся, ПРАВИЛЬНО: вы/карабкаемся
"ВЫМАТЕРИТЬСЯ", // неправильное ударение во всех формах
"ДОРОГОЙ", // ДОРО<Г, ДОРО<ГО
"НЕДОРОГОЙ", // НЕДОРО<Г, НЕДОРО<ГО
"ДОСЛЫШИВАТЬ", // дослышива/ть
"ДОСТИГАТЬ", // неправильное ударение во всех формах: дости/гать, дости/гавшей
"ПОБЕЗДЕЛЬНИЧАТЬ", // побездельнича/ем
"ПОБАРЫШНИЧАТЬ", // побарышнича/ем
"ПОБРАЖНИЧАТЬ", // пображнича/ем
"ПОВАЖНИЧАТЬ", // поважнича/ем
"ПОВЗЛАМЫВАТЬ", // повзламыва/ло И ДРУГИЕ ФОРМЫ
"ПОВЕСТВОВАТЬ", // повество/вали И ДРУГИЕ ФОРМЫ
"ПОВКАЛЫВАТЬ", // повкалыва/ет И ДРУГИЕ ФОРМЫ
"ПОВЫЧИСТИТЬСЯ", // повычисти/лись И ДРУГИЕ ФОРМЫ
"ЧЕТЫРЁХДВЕРНЫЙ", // ЧЕТЫРЁХДВЕРНО<ГО
// сковоро/да
"СЛЕД", // откуда-то взялся П2
"ДОМ", // лишний П2
"СЛИЗНУТЬ", // сли/знул
"СЛОНЯТЬ", // что значит это слово? Может быть, СЛОНЯТЬСЯ?
"СМЕТЛИВЫЙ",
"СМЕТЛИВОСТЬ",
"СМУЩЁННЫЙ", // смущеннЕе 
"РЕГЕНЕРИРОВАТЬСЯ", // регенерирова/вшийся
"НАПРИДУМЫВАТЬ", // НАПРИДУМЫВА<ТЬ 
"ВОЗЖЕЧЬ", // ВОЗЖЖЕ<НА и др.
"ДИСКРИМИНИРОВАТЬСЯ", // дискриминиру/ющаяся
"ДИСПЕРГИРОВАТЬ", // диспергирова/лся
"ДИСЦИПЛИНИРОВАТЬСЯ", // ДИСЦИПЛИНИРУ<ЮЩЕГОСЯ 
"ЗАБРЯКАТЬ", // забряка/ем
"ЗАПЛЕЧИК", // заплечИк - что это? У Зализняка есть заплЕчики
"ЗАПРОТИВИТЬСЯ", // запротиви/лась
"ЗАПРОТЕСТОВАТЬ", // запроте/стуя
"ЗАПУЛЬСИРОВАТЬ", // запульсирова/л И ДР.
"ИЗМОЖДЁННЫЙ", // ИЗМОЖДЁ<НА (правильно: ИЗМОЖДЕНА<) 
"ИЛЬЯ", // нет Ё в ИЛЬЁЙ, неправильное ударение в ИЛЬИЧЕ
"ИМОМАЛИ", // скорее всего, имелось в виду Эмомали, но тогда ударение должно мыть на последний слог
"ИНЦЕСТ", // неправильное ударение
"КАПИТАЛОЕМКИЙ", // нет Ё
"КАРАМУРЗА", // неправильное ударение, должно быть карамурзА
"КВАРТИРОВАТЬ", // кварти/ровать
"КНЯЖНА", // неправильно ударение КНЯЖНОЮ<
"КОВАЛЕВ", // нет Ё
"КОЛЕЯ", // Неправильное ударение колЕю
"КОРЧМА", // Неправильное ударение корчмоЮ
"КОЛЯДА", // Неправильное ударение колЯда
"КОНФИСКОВЫВАТЬ",
"КОСТЮМИРОВАТЬСЯ", // "костюми/роваюсь"
"КРОХА", // крохА
"НЕВЕСЁЛЫЙ", // кр. ф. невесёл, правильно: невЕсел
"НЕВОЗОБНОВЛЯЕМЫЙ", // невозобновляе/мого
"ТОРЖЕСТВОВАТЬ",
"ПОДТВЕРЖДАТЬ",

Предложения в орфографический словарь

Прошу Вас добавить в орфографический словарь следующие слова:

"учебно-научн*" (его формы: рода, склонения..., например, "учебно-научный", "учебно-научная", "учебно-научного"...)
"предпосадочн*" (его формы: рода, склонения..., например, "предпосадочное", "предпосадочный", "предпосадочного"...)
"взлётно-посадочн*" (его формы: рода, склонения..., ну Вы поняли...:)).

Причём, в настоящий момент словарь считает правильными слова "взлетно-посадочн*" (без "Ё"),
и неверными "взлётно-посадочн*" (с "Ё"), что противоречит заявленному свойству словаря (только с "Ё").
Поэтому также необходимо удалить слова "взлетно-посадочн*" (без "Ё").

Понятно, что Ваш труд кропотлив и действительно труден, поэтому немудрено что-то упустить.
Наверняка есть ещё масса незамеченных моментов.
Если что ещё увижу, скажу) Благодарю!

буква ё

хорёк возвращает хорек, при проверке ответа слово не найдено, буква ё может быть определяющей в ссылке на объект, например: пчелы и пчёлы. Если программа правильно понимает "ё" в запросе, почему она возвращает ответ с "е"?

Как откомпилировать MorphWizard?

Пытаюсь откомпилировать исходники (под Windows, MS Visual Studio).
СМаке ругается на CMakeLists.txt:

CMake Error at CMakeLists.txt:4 (declare_cmake_min_version):
  Unknown CMake command "declare_cmake_min_version".

CMake Warning (dev) in CMakeLists.txt:
  No cmake_minimum_required command is present.  A line of code such as

    cmake_minimum_required(VERSION 3.5)

  should be added at the top of the file.

Пробовал CMake и текущей версии 3.20, и 3.10, и 3.5 (как написано в инструкции по компилированию) - результат один.

Что проще человеку, никогда с CMake не работавшему, - довести до ума имеющиеся файлы CMakeLists.txt или найти версию CMake, совместимую с ними?

Вопрос о справедливости

Как указано на сайте aot.ru,

Русский морфологический словарь Диалинг базируется на грамматическом словаре А.А.Зализняка[1987].

Т.е. в основе этого открытого репозитория лежит 13-летний кропотливый труд выдающегося лингвиста.

@sokirko74 Алексей, вопрос лично к вам. Считаете ли вы себя вправе распоряжаться плодами чужого труда – выкладывать их в открытый доступ или, наоборот, ограничивать доступ к ним лицензиями? По российским законам исключительное право на произведение охраняется в течение 70 лет с года, следующего за годом смерти автора (ст. 1281 ГК РФ). Но я спрашиваю не с целью проверить вашу юридическую подкованность. Мой вопрос адресован вашему чувству справедливости.

множественное число существительных

Письмо от Юрия Пронякина:

Существует довольно большое число имен существительных,
оканчивающихся на "-сть". Как правило, эти слова обозначают какое-то
качество (свойство). В словаре для них используются наборы правил
словообразования, порождающие множественное число, хотя, по моему
мнению, это далеко не всегда правильно.
Для себя я делю такие свойства на "качественные" и "количественные".
Принцип деления очень простой: если величину свойства можно измерить и
выразить числом ("скорость", "яркость", "громкость"), то количественное
и у него есть множественное число, а если измерить нельзя ("совесть",
"честность", "свежесть"), то качественное и множественного числа не имеет.
Но в бумажных орфографических и орфоэпических словарях наличие или
отсутствие множественного числа практически никогда не указывается - их
авторы предлагают искать эту информацию в толковых словарях. А у
Зализняка открыто написано, что множественное число у всех таких слов
приведено, опять-таки, ради единоообразия таблиц.
Как быть?

Assert в морфологии на слове Аэль

Здравствуйте, Алексей!

Обнаружилось, что код AOT ловит assert() на слове "Аэль". Показалось
интересным, потому что это единственное срабатывание после попытки
лемматизировать почти 5 млн. слов.

LemmatizerLib/MorphDict.cpp:62: void CMorphDict::GetLemmaInfos(const
string&, size_t, std::vector&) const: Assertion
`Base == m_Bases[LemmaStrNo].GetString()' failed.

Приветствие из Томского государственного университета! :))

Отсутствие некоторых форм глаголов

В словарях имеются четвёрки (пары пар) глаголов вроде:

обнадёживать, обнадёживаться
обнадёжить, обнадёжиться

Первая пара означает выполнение действия, а вторая - его совершение (окончание).
Но иногда попадаются глаголы, у которых в одной из пар второе слово отсутствует. Например:

обезнадёживать, обезнадёживаться
обезнадёжить, -

или

перекорёживать, перекорёживаться
перекорёжить, -

Причём этих отсутствущих глаголов нет даже в словарях, изданных Институтом русского языка!
Но я логики в этом не вижу: действие выполняется и вполне может быть завершено. И слова "обезнадёжиться" и "перекорёжиться" для меня звучат вполне естественно.

(Попадается и наоборот - когда отсутствует второй глагол в первой паре.)

Нормально ли будет добавить подобные глаголы в словарь?

Имена собственные и ударения

Уважаемые форумчане, здравствуйте.

В своей работе по редактированию текстов, мы ни раз сталкивались с проблемой обязательных знаков ударения в многозначных словах русского языка (как за́мок или замо́к, непутевы́е или непутёвые, а́тлас или атла́с, го́да или года́, ве́ка или века́, по́рою или порою́ и т.д.) от которых зависит смысл напечатанного в текстах. А если предложение состоит из одного сло́ва, то без ударений вообще непонятно о чём писано. В некоторых программах есть возможность создавать свой орфографический словарь и мной были составлены базисные словари:

• добавленных слов под ударениями;
• исключённых многозначных слов без ударений.

Однако это не всегда удобно и хотелось бы иметь такие словари встроенные в программы. Кромы того, обнаружилась ещё одна проблемка, которая не решена и это — имена собственные (ФИО, топонимы, аббревиатуры учреждений, как КГБ или ФСБ и СБУ и пр.), а также римские числительные (I, II, III... V... IX... ХХХ и т.д.).

Программы все эти слова́ и числа фиксирует со строчной буквы, что ошибочно и неудобно при редактировании. В Виндовс был внедрён словарь с буквой Ё и пользователь может выбрать устанавливать его или нет. Хотелось бы точно такое сделать и для слов с ударениями. Если кто-то пожелает его установить, исключив такие же безударные варианты, то мог бы это сделать для различных Офисов тоже.

Я уже обращался в компании-производители редакционных программ и браузеров, где есть русский язык, но они "нихт-бум-бум". Может ли кто-то взяться за такой проект или подсказать, что можно сделать в данном случае, кроме как вновь и вновь настойчиво обратиться в компанию-изготовитель той или иной программы.

Также было замечено, что в процессе занесения слов в словари могут захватываться знаки препинания. Что сделать, чтобы этого не происходило я не знаю. Кроме того как добавлять нужные слова при постоянном открывании словарей вручную.

В пример, для желающих, скачал словари из программы и загружаю два текстовых файла со словарями, которые каждый может дополнить самостоятельно. Опять же, это пример и словари не полны.

Word List Added to Dictionary.txt
Word List Removed from Dictionary.txt

Для осознания проблемы, демонстрирую отрывок произведения на русском языке.

... И про́бил час указанный оракулом, и при́был Иванушка в град белокаменный, и проби́л стену кулаком своим богатырским — кулаком великанским; и вошёл в город широкой поступью под неистовые крики толпы́ поражённой, с одной стороны́, и ликование толпы́ победителей — с другой. Но ми́нул час,.. другой,.. третий,.. и то́лпы слились воедино: в одну — не бо́льшую или меньшую, а — в единую, большу́ю семью славных жителей го́рода; земли́ народа нашего. И зе́мли те вольные простираются от океана до океана богатствами несметными, полями бескрайними, лесами зелёными, реками и озёрами полноводными... Тут я неминуемо хотел бы упомянуть, мил мой человечище, что не всё так быстро и просто делается, как сказка сказывается. Народ не враз народится по всей той территории и для первенца славного и здорового не менее девяти месяцев надобно, а то и Ле́та иль го́да целостного — календарного. Не одно поколение в лету канет, но делами своими в века́х и в памяти людской останется. (Aleksey Pogrebnoj-Alexandroff "Краски". — 2000 год).

Как можно этот и ему подобные тексты публиковать без знаков ударения? Почему итальянский, испанский и прочие словари в обязательном порядке содержат ударения или акцентные символы, а русский язык таким нужным знаком (единственным!) обделён до сих пор?

С уважением,
Алексей

Качественные и относительные прилагательные

Письмо от Юрия Пронякина:

В словаре для всех (за редчайшим исключением) имён прилагательных
используются наборы правил словообразования, порождающие краткие формы и
сравнительные степени этих прилагательных.
Я догадываюсь, откуда это пошло: от словаря Зализняка, который лежат в
основе почти всех компьютерных словарей. Но даже у Зализняка в первой
(теоретической) части словаря сказано, что сделано это искусственно (для
"надлежащего уставного единообразия" таблиц), а на самом деле эти формы
есть далеко не у всех прилагательных.
В действительности всё ещё печальнее: прилагательные делятся на 3
категории: качественные, относительные и притяжательные, и
вышеупомянутые формы есть только у относительных, которые и сами-то по
себе не составляют большинства, да ещё и не у всех из них эти формы есть
(внутри этой категории своё дополнительное отсечение имеется - по
суффиксам).
Соответственно, вопросы:
При внесении новых слов как поступать: вписывать только "законные"
словоформы или так, как сейчас?
Что делать с "лишними" формами у уже имеющихся в словаре слов?

Русская морфология (парадигмы без деепричастия прошедшего времени)

Письмо от Юрия Пронякина:
Есть в словаре два набора правил словообразования глаголов: 151 и 439
(если нумерация идёт с нуля), и есть глаголы, использующие эти правила.
Причём эти два набора практически полностью совпадают. Всё отличие между
ними: в наборе 151 на одно правило больше, и это правило образует
деепричастие прошедшего времени, оканчивающееся на "-вшись" (например,
аукаться > аукавшись, барахтаться > барахтавшись).
При этом все встреченные глаголы, использующие набор 439, на мой взгляд,
никакими особенностями не обладают, и это деепричастие от них совершенно
спокойно образуется (например, всверливаться > всверливавшись,
замораживаться > замораживавшись). Да и вообще я нигде не встречал
упоминаний, что от каких-то глаголов такое деепричастие не может быть
образовано.
Почему же существует и используется набор 439?