Страницы: 1
RSS
Сравнение массивов числовых данных на степень похожести, найти ряд данных, наиболее близкий к расчётным
 
Добрый день!

Коллеги, подскажите, пожалуйста, как определить степень схожести между несколькими массивами данных?
В идеале - в процентах.

Во вложении пример: в первом столбце - данные, в столбцах со второго по шестой - эталоны для сравнения.
Необходимо найти среди эталонов наиболее схожий столбец с столбцом исходных данных.

Заранее спасибо :)
 
Как понял. Массивная:
=ИНДЕКС(B4:F4;ПОИСКПОЗ(МАКС(МУМНОЖ(ТРАНСП(--(A5:A114=B5:F114));СТРОКА(A5:A114)^0));МУМНОЖ(ТРАНСП(--(A5:A114=B5:F114));СТРОКА(A5:A114)^0);))
или так:
=ИНДЕКС(МУМНОЖ(ТРАНСП(--($A5:$A114=$B5:$F114));СТРОКА(A5:A114)^0)/ЧСТРОК(A5:A114);СТОЛБЕЦ(A5))
Изменено: Максим В. - 05.08.2020 08:46:58
Если в мире всё бессмысленно, — сказала Алиса, — что мешает выдумать какой-нибудь смысл? ©Льюис Кэрролл
 
Может так
 
Вариант на базе квадратичного отклонение, чем меньше значение, тем лучше:
Код
=КОРЕНЬ(СУММКВРАЗН($A5:$A114;B5:B114)/СЧЁТ($A5:$A114))
 
Доброе время суток
Вариант - Манхэттенское расстояние, формула массива
Код
=СУММ(ABS($A$5:$A$114-B5:B114))/СЧЁТ($A$5:$A$114)

Ещё вариант. коэффициент Танимото. Ну и аналогичные Коэффициент сходства
Код
=СУММПРОИЗВ(--($A$5:$A$114=B5:B114))/(2*СЧЁТ($A$5:$A$114)-СУММПРОИЗВ(--($A$5:$A$114=B5:B114)))

Интересно, стоит ли сюда привлекать LCS, редакционное расстояние? :)
Изменено: Андрей VG - 05.08.2020 13:19:34
 
Посчитал по WAPE - Сумма модульных отклонений поделить на сумму значений в столбце данных
 
Цитата
Zasypich написал:
на сумму значений в столбце данных
Какого из двух? Если значения в столбце знакопеременные и, в пределе, сумма равна 0?  В чём профит?
Изменено: Андрей VG - 05.08.2020 13:30:21
 
Первого.
Там только цифры везде и все положительные
 
Цитата
Zasypich написал:
Там только цифры
Вы не поверите, но я это тоже заметил :)  
Цитата
Zasypich написал:
и все положительные
и что, как это способствует установлению сходства? Шаман, вы, батенька :)
Updated
Почитал про этот загадочный WAPE, учитывая, что сумма по столбцу 1 одна и та же, то это ровно тоже  Манхэттенское расстояние. А дальше песня, путь прогноз был всегда в 3 раза больше чем факт. Тогда абсолютная сумма отклонений 2 * Sum(Fi) и WAPE = 2. Отсюда забавное значение точности прогноза минус 100%, а можно и минус 200% и т. д.
Изменено: Андрей VG - 05.08.2020 14:28:47
 
Для быстрого "разведочного" анализа можно и так -  эталон 4 и 5 явно не из этой серии Данных.  
 
Цитата
DrillPipe написал:
эталон 4 и 5 явно не из этой серии Данных.
К сожалению, из этой :(
А чего это такое красивое?
Изменено: Zasypich - 06.08.2020 05:20:53
 
Zasypich,

В 4 и 5 эталоне 50% значений находится в интервале от 250 до 800. А для Данных - от 0 до 500, при этом значений с 0  преобладает, 46 из всего набора данных (110)

А график - это "ящик с усам"
Страницы: 1
Наверх