Регулярно в похожих, но не идентичных форматах получаю данные, которые необходимо обработать.
Эти данные касаются ООО и ИП. ФИО адрес телефон и т.п. Где-то есть заголовки данных, где-то их нет. Где-то указан ИНН/ОГРН, где-то нет (архив с исходными файлами во вложении)
Первым делом надо собрать данные в один файл вида (stage_1 в приложении)
Далее я вручную проверяю дубли, которые выделяются условным форматированием. Удаляю то что считаю нужным. Если дублей слишком много, принимаю какие-то меры.
Вторым шагом я отправляю получившийся файл в сервис dadata.ru для нормализации, стандартизации и получения часовых поясов.
На выходе я получаю excel файл (stage_2 в приложении)
далее надо 1) убрать "-" и пробелы из телефонов 2) добавить столбец с случайным числом 1-1000 3) заменить "ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ" на "ООО" 4) заменить UTC+ на ""
получится stage_3
Хотелось бы это увлекательное занятие автоматизировать По бюджету не могу сказать. Думаю, специалистам виднее .сколько стоит такая работа. Предлагайте. Для понимания, оплачивать это будем скорее всего 50/50 я и компания.
P.S. автоматизировать отправку в сервис dadata и проверку дублей необходимости нет Нужны - Сбор информации в один файл, поиск с заменой, добавить столбец с формулой. Согласно тому, что написал выше.