PQ. Оптимизация запроса поиска повторных значений

Пользователь

Сообщений: 20 Регистрация: 22.11.2021

14.01.2022 13:38:15

Добрый день. Есть код, написанный ув. surkenny, который находит повторяющиеся значения и их количество повторений. Может ли кто нибудь оптимизировать его? С большими массивами данных, работает супер долго. При этом мой пк совсем не в нагрузке. Даже не на 20%. Ни процессор, ни озу:( В чём может быть проблема или эксель берет сколько надо? Код и пример:

Код

let
  src = Table.Buffer ( Excel.CurrentWorkbook(){[ Name = "data" ]}[Content] ),
  clmnNames = List.Buffer ( Table.ColumnNames ( src ) ),
  filterValues = List.Buffer ( Excel.CurrentWorkbook(){[ Name = "filterValues" ]}[Content][Значение] ),
  addComb = Table.AddColumn (
    src,
    "comb",
    each List.Accumulate (
      List.Sort ( List.Difference ( List.RemoveNulls ( List.Distinct ( Record.ToList ( _ ) ) ), filterValues ) ),
      { {} },
      ( s, c ) => s & List.Transform ( s, ( x ) => x & { c } )
    )
  ),
  expand = Table.ExpandListColumn ( addComb[[comb]], "comb" ),
  addCount = Table.AddColumn ( expand, "КолЭл", each List.Count ( [comb] ), Int64.Type ),
  parameters = Record.FromTable (
    Table.FromColumns ( Table.ToColumns ( Excel.CurrentWorkbook(){[ Name = "parameters" ]}[Content] ), type table [ Name = text, Value = number ] )
  ),
  filterElements = Table.SelectRows (
    addCount,
    each [КолЭл] = Record.FieldOrDefault ( parameters, "Количество элементов в сочетании", null )
  ),
  toRec = Table.TransformColumns ( filterElements, { "comb", ( x ) => Record.FromList ( x, List.FirstN ( clmnNames, List.Count ( x ) ) ) } ),
  group = Table.Group ( toRec, { "comb", "КолЭл" }, { { "Повт", each Table.RowCount ( _ ), Int64.Type } } ),
  filterRepeats = Table.SelectRows ( group, each [Повт] >= Record.FieldOrDefault ( parameters, "Минимальное число повторений", null ) ),
  sort = Table.Sort ( filterRepeats, { { "КолЭл", Order.Descending }, { "Повт", Order.Descending } } ),
  expandRecs = Table.ExpandRecordColumn ( sort, "comb", List.FirstN ( clmnNames, sort[КолЭл]{0} ) )
in
  expandRecs

Прикрепленные файлы

Пример.xlsb (16.58 КБ)

PooHkrd Пользователь Сообщений: 6602 Регистрация: 22.02.2017 Excel x64 О365 / 2016 / Online / Power BI	#2 14.01.2022 17:07:20 Мария Гончарова, вы бы в примере хоть исходные данные в шаблоне бы заполнили. что там за данные и что там за фильтр? Вот горшок пустой, он предмет простой...

surkenny

Пользователь

Сообщений: 2872 Регистрация: 13.06.2014

14.01.2022 18:27:28

PooHkrd, за ТС пример свой же дам

Из каждой строки берем уникальные элементы. Находим все сочетания.
Далее находим для каждого сочетания число повторений в разных строках.

Прикрепленные файлы

combinations_distinct&filter.xlsx (24.25 КБ)

Изменено: surkenny - 14.01.2022 18:36:29

surkenny

Пользователь

Сообщений: 2872 Регистрация: 13.06.2014

14.01.2022 20:08:47

Буфферизация предпоследнего шага ускоряет выполнение в ~2 раза:

Скрытый текст

Код

let
  src = Table.Buffer ( Excel.CurrentWorkbook(){[ Name = "data" ]}[Content] ),
  clmnNames = List.Buffer ( Table.ColumnNames ( src ) ),
  filterValues = List.Buffer ( Excel.CurrentWorkbook(){[ Name = "filterValues" ]}[Content][Значение] ),
  addComb = Table.AddColumn (
    src,
    "comb",
    each List.Accumulate (
      List.Sort ( List.Difference ( List.RemoveNulls ( List.Distinct ( Record.ToList ( _ ) ) ), filterValues ) ),
      { {} },
      ( s, c ) => s & List.Transform ( s, ( x ) => x & { c } )
    )
  ),
  expand = Table.ExpandListColumn ( addComb[[comb]], "comb" ),
  addCount = Table.AddColumn ( expand, "Количество элементов", each List.Count ( [comb] ), Int64.Type ),
  parameters = Record.FromTable (
    Table.FromColumns ( Table.ToColumns ( Excel.CurrentWorkbook(){[ Name = "parameters" ]}[Content] ), type table [ Name = text, Value = number ] )
  ),
  filterElements = Table.SelectRows (
    addCount,
    each [Количество элементов] >= Record.FieldOrDefault ( parameters, "Минимальное количество элементов в сочетании", null )
  ),
  toRec = Table.TransformColumns ( filterElements, { "comb", ( x ) => Record.FromList ( x, List.FirstN ( clmnNames, List.Count ( x ) ) ) } ),
  group = Table.Group ( toRec, { "comb", "Количество элементов" }, { { "Число повторений", each Table.RowCount ( _ ), Int64.Type } } ),
  filterRepeats = Table.SelectRows ( group, each [Число повторений] >= Record.FieldOrDefault ( parameters, "Минимальное число повторений", null ) ),
  sort = Table.Buffer ( Table.Sort ( filterRepeats, { { "Количество элементов", Order.Descending }, { "Число повторений", Order.Descending } } ) ),
  expandRecs = Table.ExpandRecordColumn ( sort, "comb", List.FirstN ( clmnNames, sort[Количество элементов]{0} ) )
in
  expandRecs

Прикрепленные файлы

combinations_distinct&filter.xlsx (33.38 КБ)

Мария Гончарова

Пользователь

Сообщений: 20 Регистрация: 22.11.2021

14.01.2022 21:30:17

Цитата
написал: Мария Гончарова , вы бы в примере хоть исходные данные в шаблоне бы заполнили. что там за данные и что там за фильтр?

Извиняюсь, отлучилась. Исходные данные любые. surkenny уже за меня скинул пример

С большим количеством столбцов, у меня вообще не работает. Приложу 2 примера. В одном 2 строчки по 20 столбцов с рандомными числовыми значениями. И в фильтре указало повторения 10 с количеством повторений минимум 2. Вообще не ищет. Во втором примере, строчек 19 по 16 столбцов так же с числами. В фильтре указала количество повторений 6. Всё ищет. Причем, можно и 20 строчек указать. И 200000. Именно когда столбцов много, не думает вообще. Пк так же не нагружается. Вроде в настройках указано многопоточность 16, но без толку. Или это дело pq?

Прикрепленные файлы

Пример.xlsb (17.72 КБ)
Пример2.xlsb (21.61 КБ)