В Power BI есть семплирование?

Пользователь

Сообщений: 122 Регистрация: 24.01.2013

25.02.2019 16:36:41

В таблицах БД MySQL могут быть миллионы строк.
В Power BI есть готовый коннектор MySQL. Если таким образом получить большое количество данных из MySQL, то не возникнет семплирование данных?

Например если в какой-то таблице несколько миллионов строк, то все данные буду взяты для расчета если выбрать их фильтром?

Примечание:
Сэмплирование — это способ выборки данных на основании которых будет построена отчетность. При сэмплировании для построения отчета используется только часть данных за период. Сэмплирование применяется для того, чтобы снизить нагрузку на сервера при вычислениях и ускорить процесс формирования отчета.

Андрей VG

Пользователь

Сообщений: 11927 Регистрация: 22.12.2012

Excel 2016, 365

25.02.2019 16:47:06

Цитата
rownong27 написал: При сэмплировании для построения отчета используется только часть данных за период

Как то это слабо бъёт с описанием в Вики.
Пишите Select с Where в запросе к MySql и получаете от сервера только нужный набор данных для анализа в Power BI, тем самым снижая нагрузку на сервер. Можете Direct Query ещё отключить, чтобы вся обработка была на стороне клиента. (Хотя, насколько помню Direct Query для MySql Microsoft пока не реализовала).

bedvit Пользователь Сообщений: 2634 Регистрация: 02.04.2015 Виталий	#3 25.02.2019 20:48:54 А так же не забываем "GROUP BY". Андрей, привет! «Бритва Оккама» или «Принцип Калашникова»?

Максим Зеленский

Пользователь

Сообщений: 4663 Регистрация: 11.06.2014

Microsoft MVP 2018-2022

26.02.2019 10:24:22

rownong27,
тут нужно разделять, где сэмплирование происходит.
Сам Power BI использует все данные, которые получает из источника, и сэмплированием не занимается, т.е. все полученные данные доступны для дальнейшей обработки и анализа.
Однако, за исключением некоторых визуализаций. Например, есть ограничения на вывод количества строк в таблице или же точек на карте или же точек в Scatter Plot и т.п. Но это уже именно сэмплы для визуализаций, сами данные остаются в том виде, в котором вы их оставили

А вот источник данных может заниматься сэмплированием при отдаче данных в ответ на запрос. Обычно этим занимаются разного рода API, например, Google Analytics.

По поводу MySQL - нет, такого не замечено. Остальное Андрей VG написал.

И не очень понятно, вам сэмплирование нужно, или вы хотите от него избавиться?

F1 творит чудеса

rownong27

Пользователь

Сообщений: 122 Регистрация: 24.01.2013

26.02.2019 15:37:23

Цитата
Максим Зеленский написал: А вот источник данных может заниматься сэмплированием при отдаче данных в ответ на запрос. Обычно этим занимаются разного рода API, например, Google Analytics.

Google Analytics помимомо семплирования в кабинете еще был замечен в семплировании при отдаче данных по API ? Или при работе коннектора Power BI и Google Analytics?

Максим Зеленский Пользователь Сообщений: 4663 Регистрация: 11.06.2014 Microsoft MVP 2018-2022	#6 26.02.2019 17:40:33 rownong27, при работе стандартного коннектора точно сэмплирование бывает (не всегда). Но это обходится определенными настройками. Я не спец, уточните тут. Про API тоже там можете уточнить. F1 творит чудеса

rownong27

Пользователь

Сообщений: 122 Регистрация: 24.01.2013

26.02.2019 17:45:58

А если не использовать стандартный коннектор Power BI для Google Analytics а по API Google Analytics в свою БД выкачтвать данных, то отдаются все данные?

Спасибо за ссылку.
Как тут общаться https://www.facebook.com/groups/powerBiForever/ ? На стене писать выопросы?

Максим Зеленский

Пользователь

Сообщений: 4663 Регистрация: 11.06.2014

Microsoft MVP 2018-2022

26.02.2019 19:33:20

rownong27, насколько я знаю, у API GA есть то ли параметр "без сэмплирования", то ли, если это не так, можно бить запрос на куски, которые отдаются без сэмплирования. Но, повторюсь, стандартный коннектор тоже умеет без сэмплирования, только я не подскажу, как.
Ну и обычно рекомендованная Best Pratice для GA - тянете чем угодно (питоном, суперметрикс, еще чем-то) сырые данные в свою БД и затем уже цепляете к ней Power BI. Не попадаете на лимиты GA и вообще это эффективнее с точки зрения производительности - каждый раз дергать API не комильфо.

В группе да, пишите на стене, люди отвечают.

F1 творит чудеса

rownong27

Пользователь

Сообщений: 122 Регистрация: 24.01.2013

27.02.2019 17:19:58

Цитата
Максим Зеленский написал: Best Pratice

Ок спасибо