Страницы: 1
RSS
Обновление данных, Скорость обновления данных в Power Query, Power BI
 
Из Mpstats выгружаю данные по одной категории, например, носки или обувь за последние 2 года помесячно. Время обновления файлов эксель, либо PBI занимает несколько дней. При размере исходных данных 2 ГБ время обновления файлов в PBI равно 20 часов, 6 ГБ считается 70 часов. 8 ГБ считается уже 5 суток и процесс еще не закончился. Основные расчеты делаются в Power Query, вся работа идет, в основном, с текстовыми переменными.
Вопрос следующий - это, вообще, нормальная ситуация, когда данные считаются несколько дней и как можно время обновления данных уменьшить?
 
добрый день,
Цитата
Lonly Lokly написал:
это, вообще, нормальная ситуация,
а сколько строк данных при этом обрабатывается при загрузке? Скорость обновления может быть низкой в том числе по следующим причинам:
1. низкая скорость интернет-соединения м/у БД или приложением (в вашем случае MPstats)  и пользователем
2. ограничение скорости на уровне подключаемой БД или приложения
 
Цитата
Lonly Lokly написал:
Основные расчеты делаются в Power Query, вся работа идет, в основном, с текстовыми переменными
Это тоже может быть причиной. Невозможно понять, насколько оптимальный у Вас код обработки.
И именно расчеты не делайте в PQ. Только предобработку.

*Попробуйте загрузить данные без изменений в модель. Если быстро, то проблема в Вашем коде.
 
Цитата
написал:
а сколько строк данных при этом обрабатывается при загрузке?
Порядка 40 млн строк. Исходные данные находятся у меня на компе - выгрузил их с сайта, поэтому интернет не влияет на скорость обработки данных. А вот это "Попробуйте загрузить данные без изменений в модель" надо попробовать. Понятно, что в модели есть сложный код обработки текстовых данных, который и грузит всю систему. Пробовал оптимизировать код, буферизовать таблицы и так далее, но не помогло.
 
Lonly Lokly, Уточните пожалуйста в каком формате выгружаются данные из Mpstats? В .csv или в каком-то другом?
У меня .csv файл с 100 млн строк без преобразований загружается в PBI за минут 20.
Возможно дело именно в преобразованиях, которые делает Power Query. Если вы используете разнообразные соединения, группировки, сортировки, столбцы сведения, то вполне вероятно что ваш файл загружается несколько раз.  
 
если файлы в xlsx, то переведите их в csv

если файлы лежат на HDD, то купите SSD (хоть самый какашечный)
 
Цитата
написал:
Уточните пожалуйста в каком формате выгружаются данные из Mpstats?
csv, конечно
 
Цитата
написал:
то купите SSD
у меня на компе все диски SSD
Страницы: 1
Наверх