Страницы: 1
RSS
Парсинг открытых данных
 
Есть набор открытых данных в xml (вернее, в zip, в котором xml).
Например, http://zakupki.gov.ru/epz/opendata/7710568760-Contracts-Moskva и другие подобные с того же сайта. Там же лежит описание набора данных.
Нужно макросом данные скачивать, распаковывать и считывать в Excel (в разные таблицы (связанные по индексным полям). Как вариант можно и в одну). Дальше уже работа в Excel :)
Единственное, что я нашёл адекватное для ответа на этот вопрос, это то, что это возможно (https://habr.com/ru/post/253201/, https://excelvba.ru/programmes/Parser/samples/zakupki , ...).
 
А вы думали, что с этими данными делать дальше будете?
Видимо, нет, раз не представляете себе объём данных, и нет примера результата в Excel

Вам без разницы, будет это 500 файлов с таблицами из 50 столбцов,
или же один файл из 7 столбцов и 100 млн строк?

Фраза «макросом данные скачивать, распаковывать и считывать в Excel», без конкретики, звучит примерно как «копать от забора до обеда»
Сделать-то можно, вот только зачем вам десятки гигабайтов Excel таблиц?
 
Добрый день!
Спасибо, Игорь, за вопрос.
Конечно же я знаю, что делать с этим дальше, иначе бы не задавал вопрос.
Дело в том, что там большая куча xml файлов, а нужен мне один файл с определённым набором полей. Каким - зависит от возможностей того, кто будет делать. Например, это могут быть реестровые номера записи, ИНН заказчика, ИНН исполнителя, сумма контракта. Понятно, что детали через личку уже уточнятся. На текущий момент достаточно тяжело оценить трудоёмкость всей задачи, поэтому как любого слона предлагается съедать его по частям.
В идеале нужен файл со всей информацией о закупке / контракте
Изменено: sviatoslav - 06.07.2019 20:30:13
 
Цитата
зависит от возможностей того, кто будет делать
прежде всего, это зависит от наличия задания
пока же, даже всемогущий программист ничего сделать не сможет (ибо задания нет вообще)
а при наличии задания - сможет почти любой

Выяснять несколько дней все нюансы в личке, чтобы потом понять, что задача в принципе нерешаема (например, таких данных в файлах просто нет),
или что вы готовы заплатить заметно меньше, чем это стоит, хочется меньше всего.
Или вы готовы платить каждому за обсуждение задачи, без каких-либо гарантий, что человек возьмется делать?

Сделайте уже хоть какое-то задание, и выложите здесь.
(задание нужно в виде: откуда какие файлы брать, что в каком виде куда выводить, как в XML файле найти все эти данные для вывода)
А то сейчас ваши шансы найти исполнителя на столь трудоемкую задачу стремятся у нулю.
Ну или озвучьте свой бюджет (отдельно на обсуждение задания, отдельно на реализацию), - тогда может у кого и появится желание повыяснять подробности.

ПС: у меня есть наработки по этой теме, и парсинг XML файлов - моя специализация, — но, при такой постановке задачи, я очень сомневаюсь, что готов это даже обсуждать (и, тем более, взяться за работу)
Изменено: Игорь - 06.07.2019 04:13:49
 
Добрый день
Спасибо за уточнение.

Может, я действительно не правильно написал, но мне казалось, что полностью задача и даже частичное решение написано на хабре https://habr.com/ru/post/253201/, (раздел - скачивание данных о конкурсах с http://zakupki.gov.ru средствами Excel VBA). Паспорт набора данных также представлен по ссылке http://zakupki.gov.ru/epz/opendata/7710568760-Contracts-Moskva. Там и гиперссылка на набор и схема данных. Как в XML файле найти все эти данные - я вообще не понял вопроса - в схеме данных всё описано (http://zakupki.gov.ru/epz/main/public/download/downloadDocument.html?id=31335 - файл Альбом ТФФ ПУЗ РК РБГ_9.2.docx).
Изменено: sviatoslav - 06.07.2019 20:29:31 (Уточнение)
 
Цитата
sviatoslav написал:
Альбом ТФФ ПУЗ РК РБГ
Вы посмотрите, с какой частотой меняется версия xml файлов.
Новая версия-новое изменение в коде обработки.
Заходим по фтп, куча архивов+ две папки с архивами.
Алгоритм отбора архивов и  файлов?
В одном архиве может быть до 1000 файлов xml .
И т.д.
Не претендую.
ТЗ никакое, согласен с Игорем.
 
Прежде всего интересует полный слепок. По-началу планировалось ограничиться названными выше полями. Отбор информации - по ИНН заказчика. Т.е. есть список ИНН. Если ИНН попадает - то это нужный нам контракт - бросаем максимальное количество полей в таблицу(-ы) про этот контракт. Версий много, но основные поля (Цена, заказчик, наименование, исполнитель) меняются крайне редко или несущественно. Я говорил про связанные таблицы, т.к. там бывают комплексные таблицы - заказчик (а у него куча полей), ...
На мой взгляд возможно восстановить недостающий код с хабра - мне не хватает знаний для этого. Алгоритм там описан очень подробно. Если нет, то задачу буду пробовать решать через другие средства разработки - не VBA.
 
прежде всего интересует миллиард слепков, что делать со слепками - вообще не интересует
отличная задача, извините что в этой ветке, но сложно не отреагировать (меня просто заводят бестолковые задачи хоть в ветке "вопросы по Microsoft Excel "хоть в ветке "работа")
Изменено: Ігор Гончаренко - 07.07.2019 01:32:50
Программисты - это люди, решающие проблемы, о существовании которых Вы не подозревали, методами, которых Вы не понимаете!
 
Спасибо, Игорь, за вопрос.
Опуская эмоциональность вопроса, хотелось отметить, что слепков, конечно, не миллиард. Что делать с ними дальше - это уже мой вопрос. Яих буду сортировать по заказчикам, складывать суммы :) Для меня не проблема обработать миллион реестровых записей (их примерно столько за срок около года). Проблема - получение данных из xml, т.е. по-сути парсинг скачанных xml-файлов. Опять же во-первых в течение дня около 1000 файлов, а в каждом из файлов бывает до 50 записей о контрактах / процедурах.
В любом случае благодарен за проявленный интерес.
Страницы: 1
Наверх