olad, я вот вижу такую проверку как необходимость распарсить два текста на отдельные слова и подсчитать, например, % последовательных вхождений одной коллекции в другую с учётом удельного веса последовательностей различной длины (т.е. чем короче последовательность, тем меньше её удельный вес в подсчёте результата). И проверить это всё надо для каждого файла. Это первый пришедший на ум самый простой алгоритм проверки "на плагиат", однако, сюда стоит добавить и другие условия. Например, учесть "законное" цитирование в кавычках, учесть общеупотребительные слова и словосочетания и авторские неологизмы, присвоив им разные веса. Скорее всего, те, кто ставил перед Вами задачу должны иметь какое-то представление о том, что они считают "проверкой на плагиат" и её алгоритме.
Сколько слов в файле? Если это диссертация, то, мягко говоря, много, может, миллионы. Сколько таких текстов в папке? И все их надо проверить на частоту вхождения слов и словосочетаний оригинального текста?
Ваш Excel повиснет на несколько месяцев или лет, если это реализовывать на VBA, а если уж тексты из интернета подтягивать, то я даже не знаю... VBA и Excel - не те технологии, которыми подобные задачи стоит решать. Воспользуйтесь одним из готовых решений в интернете - сэкономите время, нервы и деньги.