Всем привет! С вами Дмитрий Тумайкин 
Заинтересовала тема, т.к. вижу, что тут обсуждается мой файлик lemms.xlsb
Сейчас он доступен по постоянной ссылке
Дам некоторые пояснения, почему он такой несовершенный, как он есть.
Основная причина в том, что он сделан под лемматизацию в самой моей надстройке (del)
1. почему в нем так мало пар где лемма равна исходной словоформе? Потому что так работает алгоритм, если леммы в файле нет и для нее нет правил, слово просто остается как есть. В таком случае такая строка и не нужна
2. Почему словарь неполный? В целом ничего не мешало загнать в файлик хоть всю базу opencorpora, разложив по нескольким листам, но крайне много слов подчиняются довольно простым правилам, связанным с окончаниями - прилагательные, глаголы, деепричастия, сущ-е на "ция" и т.д.
Все эти правила в алгоритме лемматизации в надстройке уже вшиты, как и исключения из них.
3. Почему для многих слов указаны не все словоформы? Тут чуть сложнее, файл в первую очередь сделан для маркетологов, для которых также важна задача генерации словоформ. Но в её рамках важны лишь употребимые словоформы, а не все подряд. Поэтому словоформы, которые обычно никто и не спрашивает (частотность по wordstat равна нулю) из базы удалены. Вы крайне с малой вероятностью встретите их и в своих текстах (хотя иногда всё же встретите).
4. Почему лемма в файлике не всегда грамматически является леммой? Это сделано в случаях где нужно снятие омонимии. Леммой сделано слово, объединяющее 2 морфемы. Например, есть лес (там где деревья) и есть леса (которая на удочке). У этих двух морфем много общих словоформ, но разные леммы. "лесу" имеет по факту 2 леммы - лес и леса. А вот "лесе" - имеет лишь одну, как и "лесом". Как раз для задач, где opencorpora и mystem ничего лучшего не придумали, как выдать обе леммы, а там выбирай как хочешь, я придумал это решение, и оно крайне эффективно для задачи удаления неявных дублей.
В общем и целом, файлик хорош при работе с моей надстройкой, а вот как база от которой плясать при построении своего решения - вряд ли. Лучше строить свое решение на базе тех же mystem и opencorpora с нуля (что собственно и делал я).
Заинтересовала тема, т.к. вижу, что тут обсуждается мой файлик lemms.xlsb
Сейчас он доступен по постоянной ссылке
Дам некоторые пояснения, почему он такой несовершенный, как он есть.
Основная причина в том, что он сделан под лемматизацию в самой моей надстройке (del)
1. почему в нем так мало пар где лемма равна исходной словоформе? Потому что так работает алгоритм, если леммы в файле нет и для нее нет правил, слово просто остается как есть. В таком случае такая строка и не нужна
2. Почему словарь неполный? В целом ничего не мешало загнать в файлик хоть всю базу opencorpora, разложив по нескольким листам, но крайне много слов подчиняются довольно простым правилам, связанным с окончаниями - прилагательные, глаголы, деепричастия, сущ-е на "ция" и т.д.
Все эти правила в алгоритме лемматизации в надстройке уже вшиты, как и исключения из них.
3. Почему для многих слов указаны не все словоформы? Тут чуть сложнее, файл в первую очередь сделан для маркетологов, для которых также важна задача генерации словоформ. Но в её рамках важны лишь употребимые словоформы, а не все подряд. Поэтому словоформы, которые обычно никто и не спрашивает (частотность по wordstat равна нулю) из базы удалены. Вы крайне с малой вероятностью встретите их и в своих текстах (хотя иногда всё же встретите).
4. Почему лемма в файлике не всегда грамматически является леммой? Это сделано в случаях где нужно снятие омонимии. Леммой сделано слово, объединяющее 2 морфемы. Например, есть лес (там где деревья) и есть леса (которая на удочке). У этих двух морфем много общих словоформ, но разные леммы. "лесу" имеет по факту 2 леммы - лес и леса. А вот "лесе" - имеет лишь одну, как и "лесом". Как раз для задач, где opencorpora и mystem ничего лучшего не придумали, как выдать обе леммы, а там выбирай как хочешь, я придумал это решение, и оно крайне эффективно для задачи удаления неявных дублей.
В общем и целом, файлик хорош при работе с моей надстройкой, а вот как база от которой плясать при построении своего решения - вряд ли. Лучше строить свое решение на базе тех же mystem и opencorpora с нуля (что собственно и делал я).
Изменено: - 22.12.2025 09:14:44