Страницы: 1
RSS
Вопрос pfuheprb большого объёма данный в PQ, который ещё и разбит на отдельные архивы
 
Добрый день.
"Напоролся" на ситуацию впервые, но, как я понимаю, для специалистов по BigData - вполне частая ситуация.
Хотел попробовать поработать с большим массивом данных на основе информации на портале ГосЗакупок. Данных тамочень много, потому показалось интересным, в том числе, в учебных целях.
Power BI  не умеет работать с ftp, где расположены данные, потому пришлось искать варианты решения. Остановился на написании bat-файла, который загружает обновлённые данные c ftp на жёсткий и может обновлять: (код bat-файла, если вдруг интересно)
Скрытый текст


Всё стало лучше (так казалось), настало время подключаться к данным (а это данные, если вдруг захотите получить готовый комплект). Сформировал 3 файла: общий путь к данным, функция вы извлечения данных из архивов, набор операций преобразования данных.

В общем-то и всё. Начинаем грузить информацию. К слову говоря, делаем это на сервере, где выделяется 36 Гб оперативки и достаточная производительная мощность. Однако, в процессе загрузки (а это только часть данных) всё крашится с неведомыми ошибками. Я полагаю, что просто ресурсов не хватает.  Шутка ли, загрузить в кеш 20 Гб данных в виде архивов, каждый из которых надо распаковать и всё это ещё и объединить и прочее.

Собственно, теперь вопрос. Как построить работу с таким объёмом данных и умудриться это всё обработать?



Скрытый текст
Изменено: KG - 06.12.2021 00:28:40
 
Off: о названии темы:
Цитата
Почему «Ы»  pfuheprb?!  Чтоб никто не догадался!
Владимир
Страницы: 1
Наверх