Страницы: 1
RSS
VBA: проверка на плагиат файлов ворда и экселя.
 
 Суть в том, чтобы создать информационную систему для проверки на плагиат файлов ворда и экселя. Проверка должна быть совершена в сравнении с интернетом и с отдельной папкой на компьютере, в итоге выдает процент плагиата. У меня есть функция которая сравнивает 2 строки и показывает процент плагиата. Но как написать а принципе эту программу ? Какой алгоритм? Я изначально хотела через API, но так нельзя по условиям задания. Помогите, есть всего 2 ночи для написания такой программы
Изменено: olad - 27.11.2017 23:23:01
 
а использование автором материала тех же букв, что были использованы в предыдущих публикациях не является плагиатом?

т.е. Вам поручили за два дня написать аналог GOOGLE, который "прошерстит" интернет в поисках аналогичного материала?
нужно обращаться в GOOGLE, может Вам скинут немного кода.
но меня терзают смутные сомнения, что написано все не на VBA.
Программисты - это люди, решающие проблемы, о существовании которых Вы не подозревали, методами, которых Вы не понимаете!
 
Так нет, просто необходимо сравнить файл с файлами в отдельной папке и плюс с интернетом, вот как раз с интернетом я и не понимаю как, нашла API, но просто я так полагаю что не одобрят то что использовала апи :(

Хотя как с отдельной папкой тоже не понимаю
 
olad, я вот вижу такую проверку как необходимость распарсить два текста на отдельные слова и подсчитать, например, % последовательных вхождений одной коллекции в другую с учётом удельного веса последовательностей различной длины (т.е. чем короче последовательность, тем меньше её удельный вес в подсчёте результата). И проверить это всё надо для каждого файла. Это первый пришедший на ум самый простой алгоритм проверки "на плагиат", однако, сюда стоит добавить и другие условия. Например, учесть "законное" цитирование в кавычках, учесть общеупотребительные слова и словосочетания и авторские неологизмы, присвоив им разные веса. Скорее всего, те, кто ставил перед Вами задачу должны иметь какое-то представление о том, что они считают "проверкой на плагиат" и её алгоритме.
Сколько слов в файле? Если это диссертация, то, мягко говоря, много, может, миллионы. Сколько таких текстов в папке? И все их надо  проверить на частоту вхождения слов и словосочетаний оригинального текста?
Ваш Excel повиснет на несколько месяцев или лет, если это реализовывать на VBA, а если уж тексты из интернета подтягивать, то я даже не знаю... VBA и Excel - не те технологии, которыми подобные задачи стоит решать. Воспользуйтесь одним из готовых решений в интернете - сэкономите время, нервы и деньги.
Изменено: Irregular Expression - 28.11.2017 00:46:48
 
Просто готовых решений в интернете нет. Файлы не как диссертация, максимальный размер файла который нудно проверить ну как курсовая если это Ворд. Не могу найти ни один кож в интернете для того чтобы обрабатывали текст :(  
 
А сравнение в интернете - на конкретном ресурсе?  
 
В смысле на конкретном ресурсе ? Не поняла  
 
Ну нельзя же перелопатить ВЕСЬ интернет...
 
Аааа, поняла, да, в гугле нужно.
 
olad, вот совсем нет готовых решений, тем более, бесплатных:https://text.ru/antiplagiat
Страницы: 1
Читают тему
Наверх