Добрый день! Встала задача автоматизации процесса по получению данных с гос. интернет сайтов, например nalog.ru.
Попробовал провести парсинг в Excel путем написания макросов (в приложенной книге их три) - подобные находил на форумах по парсингу:
- макрос: через_теги. Дополнительно приложен скрин того что должно в итоге выбраться после отработке макроса.
- макрос: html_код. Должен собрать в текстовый файл html код интернет-страницы. Что позволило бы в дальнейшем выбрать из него нужную информацию.
- макрос: html_код2. Должен отражать текстовое содержание страницы интернет-сайта
Но столкнулся со следующей проблемой, что если с другими сайтами это работает, например
то с таким сайтом как nalog.ru нет - не отрабатывает ни один макрос, т.е. создается ощущение что не получается осуществлять поиск во всем коде интернет страницы. Также с этим сайтом пробовал провести парсинг через PowerQuery, но если мы и отражаем страницу с конкретным предприятием (указан ИНН), то он все равно в подключениях отражает только основную страницу сайта.
В идеале хотелось бы получить всю информацию которая содержится например на странице:
Попробовал провести парсинг в Excel путем написания макросов (в приложенной книге их три) - подобные находил на форумах по парсингу:
- макрос: через_теги. Дополнительно приложен скрин того что должно в итоге выбраться после отработке макроса.
- макрос: html_код. Должен собрать в текстовый файл html код интернет-страницы. Что позволило бы в дальнейшем выбрать из него нужную информацию.
- макрос: html_код2. Должен отражать текстовое содержание страницы интернет-сайта
Но столкнулся со следующей проблемой, что если с другими сайтами это работает, например
то с таким сайтом как nalog.ru нет - не отрабатывает ни один макрос, т.е. создается ощущение что не получается осуществлять поиск во всем коде интернет страницы. Также с этим сайтом пробовал провести парсинг через PowerQuery, но если мы и отражаем страницу с конкретным предприятием (указан ИНН), то он все равно в подключениях отражает только основную страницу сайта.
В идеале хотелось бы получить всю информацию которая содержится например на странице: