Функция или запрос в PQ и скорость обновления: где лучше разместить больше шагов?

Пользователь

Сообщений: 63 Регистрация: 30.10.2014

15.04.2019 15:46:04

Всем привет.
Если собирать N файлов запросом PQ в один массив данных, как лучше поступать:
- максимум шагов добавлять в функцию и применять "большую" функцию к каждому файлу в головном запросе или
- делать функцию с минимумом шагов и добавлять все необходимые шаги в головном запросе после применения "маленькой" функции?
Есть ли тут какой-то универсальный совет?

Спасибо

artyrH

Пользователь

Сообщений: 2054 Регистрация: 01.07.2018

17.04.2019 00:11:16

Цитата
tabularasa написал: или в разных обстоятельствах по-разному

ответа на Ваш вопрос не знаю.
попробуйте сделать несколько пробных файлов по миллиону строк данных. и сделайте два запроса: один со всеми шагами обработки в пользовательской функции и второй запрос с пользовательской функцией только для объединения файлов и последующей обработкой объединенных данных после работы пользовательской функции объединения. и сравните время выполнения запросов .
как сделать миллион строк данных посмотрите, например, здесь

PooHkrd

Пользователь

Сообщений: 6602 Регистрация: 22.02.2017

Excel x64 О365 / 2016 / Online / Power BI

17.04.2019 10:01:51

tabularasa, лично я по максимуму стараюсь обработку производить до сборки. ИМХО так быстрее. Над общим массивом делаю только то что нельзя по-отдельности, скажем если из разных файлов могут придти дубли, то зачистку уже только после сборки.
Все вышеописанное основано на моем субъективном восприятии, специальных замеров производительности я не делал. Может где-то в буржуйском сегменте сети и найдёте подобное исследование. В рунете такого не видел.

Вот горшок пустой, он предмет простой...

Максим Зеленский

Пользователь

Сообщений: 4663 Регистрация: 11.06.2014

Microsoft MVP 2018-2022

17.04.2019 10:06:00

Универсального ответа не знаю (не задумывался сильно о нем раньше).
Суть в том, что если вы сделаете минимум преобразований в функции, потом объедините и потом еще куча, то PQ придется работать с большой таблицей. И он будет пытаться запихнуть ее в память. Если данных очень много, то он будет таблицу "резать" и проводить преобразования по частям.
Если вы сделаете максимум преобразований в функции, то потом конечно ему будет легче, но всё равно получится, что он по частям делает. Плюс, поскольку источник - файлы, то есть чтение с диска, вы скорее не заметите большой разницы - всё равно все файлы ему придется прочесть с диска, и может быть неоднократно.

Но зависит также от типа операций - например, наверное лучше одно слияние, чем 10 слияний, и так далее.

F1 творит чудеса

artyrH

Пользователь

Сообщений: 2054 Регистрация: 01.07.2018

17.04.2019 12:27:52

вот такой еще вопросы. во время выполнения запроса на области справа появляются числа о загрузке 5..50..250 мб. у меня до 250 доходило, хотя размер файла меньше пяти мб. что это за цифры? и что в это время грузится? опер. память? процессор? и есть ли критический максимум? например, не более, скажем, тридцати процентов от ОЗУ

Dark1589

Пользователь

Сообщений: 487 Регистрация: 22.11.2017

17.04.2019 13:29:34

artyrH, это объем загружаемых данных из источников данных. Если у вас источники скажем 50мб, но вы обращаетесь к ним 5 раз, то PQ будет грузить 250мб. Вроде должны были добавить кэш, но добавили или нет - не в курсе

Изменено: Dark1589 - 17.04.2019 13:31:46

Александр Пользователь Сообщений: 1035 Регистрация: 29.07.2018	#7 17.04.2019 13:32:59 Dark1589, так бывают цифры больше чем сам объём источника В жизни нет ничего невозможного! Есть только недостаток знаний и умений.

Dark1589

Пользователь

Сообщений: 487 Регистрация: 22.11.2017

17.04.2019 13:34:17

Александр, отредактировал сообщение) PQ не кэширует исходник, а постоянно его загружает при обращении. Думаю Максим или Пух смогут более развёрнуто ответить

Вот тут Андрей писал о тестировании кэша в PQ

Изменено: Dark1589 - 17.04.2019 13:38:01

artyrH Пользователь Сообщений: 2054 Регистрация: 01.07.2018	#9 17.04.2019 13:37:36 Dark1589, надеюсь, критического максимума нет

Dark1589 Пользователь Сообщений: 487 Регистрация: 22.11.2017	#10 17.04.2019 13:45:58 artyrH, посмотрите тут . Описан объем 1 и 4гб

artyrH Пользователь Сообщений: 2054 Регистрация: 01.07.2018	#11 17.04.2019 13:51:52 Dark1589, спасибо

tabularasa

Пользователь

Сообщений: 63 Регистрация: 30.10.2014

#12

17.04.2019 21:11:22

Большое спасибо всем. Познавательно.

У меня вообще файлы на сервере лежат и к ним обращение по сети идет. Я чего-то не думал, что обращений к одному и тому же файлу может быть >1. Вообще собираю 1,5 млн строк из ~100 файлов разного размера и все встает колом. Пару месяцев назад данных было чуть меньше и все работало. Уж не знаю, что изменилось, обновления ли офиса, критическая масса достигнута или политики безопасности стали мешать.
Кину на локальный ssd, мож попустит, а то устал смотреть в диспетчере задач на подвисшие процессы mashup и эксель с пометкой "оч высокое энергопотребление"

PooHkrd

Пользователь

Сообщений: 6602 Регистрация: 22.02.2017

Excel x64 О365 / 2016 / Online / Power BI

#13

18.04.2019 00:59:08

Dark1589, кэш добавили, но только в версии Эксель 2019 и, как я понимаю, в О365 тоже должно быть. Работает уже с ноября 2018.
tabularasa, если столько обращений, то нужно оптимизировать запрос. Чтобы понимать как оптимизировать нужно понимать какой(ие) из шагов генерят такие обращения и с ними по-колдовать. Колдовать можно по-разному. Можно в нужные места Table.Buffer по-навтыкать, можно то же преобразование другой функцией реализовать (те что реализуются кнопочным методом далеко не всегда оптимальны).

Изменено: PooHkrd - 18.04.2019 01:04:40

Вот горшок пустой, он предмет простой...

Dark1589 Пользователь Сообщений: 487 Регистрация: 22.11.2017	#14 18.04.2019 10:41:34 PooHkrd, сейчас приходится работать на 10-13, так что 19 только в мечтах) А есть данные по скорости обработки с кэшем и без?

falm̅̅̃̄̅̂̂̈̄̀̀̀̀̆̄̂́́̀̄̀̂̂̂̈̈̃́̂̆̂̀̆̀̃́̆̀̂̀̀̈̆rom

Пользователь

Сообщений: 349 Регистрация: 15.04.2018

#15

18.04.2019 10:47:04

Я режу лишнее заранее, чтобы потом не иметь дело с супер большими таблицами. Отсекайте по чуть-чуть, чтобы потом не утонуть в таблице информации. Оно и логично, если не задумываться.
Если задуматься, то, от перестановки слагаемых сумма не меняется. Не знаю, применимо ли это правило в наших случаях.

В общем, отсеивайте заранее.

Хорошего дня! =)

Улыбнись.

artyrH

Пользователь

Сообщений: 2054 Регистрация: 01.07.2018

#16

18.04.2019 11:55:17

Цитата
Dark1589 написал: 19 только в мечтах)

а мечтать зачем.. взяли бы да установили

Dark1589 Пользователь Сообщений: 487 Регистрация: 22.11.2017	#17 18.04.2019 12:06:54 artyrH, ну дома мне 16 вполне хватает, а на работе вариантов нет. У всех 10-13 + Win7. Апгрейд до 19 и Win10 будет супер дорогим

artyrH

Пользователь

Сообщений: 2054 Регистрация: 01.07.2018

#18

18.04.2019 12:22:05

Цитата
Dark1589 написал: будет супер дорогим

да, вообще то, раз есть деньги платить..

tabularasa

Пользователь

Сообщений: 63 Регистрация: 30.10.2014

#19

13.08.2019 17:55:01

Товарищи, а у вас часто наблюдается такая картина?
В запросе функция которая таблицу преобразуется в 3 столбца "индекс", "атрибут" и "значение", функция применяется к двум файлам. Затем в атрибуте правятся заголовки, чтобы развернуть потом в одинаковый, ну и разворачивается. Короче даже не суть что делается, достаточно часто наблюдаю такую картину со 100% загрузкой проца и "высоким энергопотреблением" процессов excel & mashup..

Скрытый текст