tiendi (Все сообщения пользователя)

Лемматизация текста в Excel, Использование существующих библиотек или разработка алгоритма на VBA

Пользователь

Сообщений: 2 Регистрация: 23.04.2016

22.12.2025 07:08:46

Всем привет! С вами Дмитрий Тумайкин

Заинтересовала тема, т.к. вижу, что тут обсуждается мой файлик lemms.xlsb
Сейчас он доступен по постоянной ссылке https://semtools.guru/dl/ru/lemms.xlsb
Дам некоторые пояснения, почему он такой несовершенный, как он есть.
Основная причина в том, что он сделан под лемматизацию в самой моей надстройке (del)
1. почему в нем так мало пар где лемма равна исходной словоформе? Потому что так работает алгоритм, если леммы в файле нет и для нее нет правил, слово просто остается как есть. В таком случае такая строка и не нужна

2. Почему словарь неполный? В целом ничего не мешало загнать в файлик хоть всю базу opencorpora, разложив по нескольким листам, но крайне много слов подчиняются довольно простым правилам, связанным с окончаниями - прилагательные, глаголы, деепричастия, сущ-е на "ция" и т.д.
Все эти правила в алгоритме лемматизации в надстройке уже вшиты, как и исключения из них.
3. Почему для многих слов указаны не все словоформы? Тут чуть сложнее, файл в первую очередь сделан для маркетологов, для которых также важна задача генерации словоформ. Но в её рамках важны лишь употребимые словоформы, а не все подряд. Поэтому словоформы, которые обычно никто и не спрашивает (частотность по wordstat равна нулю) из базы удалены. Вы крайне с малой вероятностью встретите их и в своих текстах (хотя иногда всё же встретите).
4. Почему лемма в файлике не всегда грамматически является леммой? Это сделано в случаях где нужно снятие омонимии. Леммой сделано слово, объединяющее 2 морфемы. Например, есть лес (там где деревья) и есть леса (которая на удочке). У этих двух морфем много общих словоформ, но разные леммы. "лесу" имеет по факту 2 леммы - лес и леса. А вот "лесе" - имеет лишь одну, как и "лесом". Как раз для задач, где opencorpora и mystem ничего лучшего не придумали, как выдать обе леммы, а там выбирай как хочешь, я придумал это решение, и оно крайне эффективно для задачи удаления неявных дублей.
В общем и целом, файлик хорош при работе с моей надстройкой, а вот как база от которой плясать при построении своего решения - вряд ли. Лучше строить свое решение на базе тех же mystem и opencorpora с нуля (что собственно и делал я).

Изменено: Sanja - 22.12.2025 09:14:44

Перейти

Мост для использования в Excel возможностей регулярных выражений .Net

tiendi Пользователь Сообщений: 2 Регистрация: 23.04.2016	# 23.04.2016 01:03:57 А можете обновить ссылки? Нет сейчас к ним доступа.
	Перейти