Сначала создать из 3 млн строк таблицу значений по трем параметрам, а потом в этой таблице искать значения по трем параметрам

RSS

Alexexcel

Пользователь

Сообщений: 3 Регистрация: 16.09.2016

09.01.2019 18:08:49

Добрый день!

Вопрос концептуальный. Когда сформируется рабочий концепт, буду шерстить форум и прочее уже самостоятельно.

Дано:
Есть массив данных за месяц, порядка 3 миллионов строк (это склад, комплектация заказов).
Нужные нам данные в массиве есть: вес товара, объём товара, шт (сколько было в заказе), фактическое время (которое было потрачено на подбор конкретно этого товара).

Задача 1: сформировать трёхмерный "куб параметров/значений": 1 сторона штуки, 2 сторона вес, 3 сторона объём. "Внутри" куба значения времени на подбор (каждое такое значение времени выбирается либо как медиана всех исторических значений с конкретными вес/объём/шт, либо просто среднее по ним).

Задача 2: имеется план какие конкретно заказы нужно будет комплектовать завтра (скажем 1000 заказов, от 10 до 50 разных товаров в каждом). По каждому товару в заказе есть вес товара, объём товара, шт (сколько будет в заказе). Нужно определить сколько времени нужно будет потратить на сбор заказов исходя из статистики, которая была преобразована в "куб данных" по первой задаче.

Вопросы:
1 Это, возможно, банальные задачи, как они решаются наиболее эффективно сейчас? Какими инструментами кроме Excel (например, Питончик и какой-нибудь Pandas) это нормально было бы сделать?

2 Если Excel, то это PowerQuery, затем делать несколько таблиц, затем выбор значений по нескольким параметрам. Это было на форуме, правда в 2011-12 годах, может сейчас это эффективнее решается?

С уважением к участникам и Excel!

Изменено: Alexexcel - 09.01.2019 18:10:20

_Igor_61 Пользователь Сообщений: 3007 Регистрация: 18.07.2016	#2 09.01.2019 18:17:00 А эти три миллиона строк где находятся? Прямо в Excel? На одном листе?

vlad000 Пользователь Сообщений: 125 Регистрация: 01.04.2018	#3 09.01.2019 18:47:09 OLAP и DWH к вашим SQL серверам.. 3 млн. строк на мой взгляд даже для Power Pivot многовато.. Изменено: vlad000 - 09.01.2019 18:48:01

Hugo Пользователь Сообщений: 23808 Регистрация: 22.12.2012	#4 09.01.2019 19:25:35 Qlik можно попробовать. Qlik Sense Desktop можно потестить бесплатно.

Андрей VG

Пользователь

Сообщений: 11927 Регистрация: 22.12.2012

Excel 2016, 365

09.01.2019 22:30:05

Доброе время суток.

Цитата
vlad000 написал: 3 млн. строк на мой взгляд даже для Power Pivot многовато..

Позвольте задать вопрос. А на основании какого опыта сделан подобный вывод? 64бит Power Pivot и с 30 миллионами строк справляется, было бы памяти достаточно.
Сами по себе вопросы темы несколько странные. Скорее всего лучше плясать от того, как предполагается видеть результаты и их использовать. Вполне возможно, что лучшим решением будет и Qlik, предложенный Игорем. А может и Power BI Desktop. Он и мощь Python, включая Pandas, позволяет задействовать.

Изменено: Андрей VG - 09.01.2019 22:30:55

Alexexcel

Пользователь

Сообщений: 3 Регистрация: 16.09.2016

11.01.2019 09:55:10

Спасибо!

Буду смотреть Qlik Sense Desktop. Складская система SAP.

Цели же таковы: получить единичные нормы времени на подбор одного типа товара. Товары, соответственно разные по весу, объёму, количеству штук, зоне хранения. А затем по этим единичным нормам нужно считать будущие заказы - сколько времени должен занимать сбор заказа. Желательно с высокой степенью автоматизации.

Начну сегодня разбираться в Qlik Sense Desktop, но хорошо ли он подходит для этих целей (просто пока не разобрался ещё)? Может есть условно готовые решения для таких или подобных случаев?

Hugo

Пользователь

Сообщений: 23808 Регистрация: 22.12.2012

11.01.2019 10:40:02

Я такие задачи не решаю, но возможно как-то так можно сделать - первую задачу сделать отдельно, результат (время на каждую штуку) выгрузить в файл qvd.
Для второй задачи загружаете этот qvd, затем список заказов - на выходе можно получить что угодно, если сделаете связь этих двух таблиц например по коду товара.
Объёмы ограничены только системой - бывает памяти и по 30 гигов отъедает, когда в одном проекте одновременно обрабатывается много больших таблиц (у нас её 60 в облаке).

vlad000

Пользователь

Сообщений: 125 Регистрация: 01.04.2018

11.01.2019 11:32:17

Цитата
Андрей VG написал: Позвольте задать вопрос. А на основании какого опыта сделан подобный вывод? 64бит Power Pivot и с 30 миллионами строк справляется, было бы памяти достаточно.

При построения куба в PP до 1,5 млн строк файл Excel потолстел помнится до 250 мб.(правда там и столбцов было более 10). Работал стабильно, всю визуализацию отображал как положено. Здесь вопросов нет!
Вопросы возникают при обновлении и построении новых ETL, (выбросы, зависания и чудеса)
Хранителями выступали файлы .xlsx
Насколько я вник в ситуацию ТС, куб должен быть обновляемым из некой БД.. то зачем его строить в Excel, при наличии сервера с данными.
Я бы клонил к созданию представления данных на самом сервере и затем уже выгружал его в PP без лишних очисток по пути..

Hugo

Пользователь

Сообщений: 23808 Регистрация: 22.12.2012

11.01.2019 12:05:10

Цитата
vlad000 написал: Я бы клонил к созданию представления данных на самом сервере

- вот это мы делаем сами ночью шедулером в Qlik так, как нам нужно (и всегда мы оперативно можем что-то подкорректировать) - получаем из xlsx/csv/баз/1С в структурированный файл/файлы то, что нужно уже для других наших задач, которые можно выполнять позже тоже шедулером или по запросу уже не нагружая выборками базы.