Какие диапазоны по Y содержат наибольшее скопление точек (кластеры) на указанном отрезке X?

RSS

Сергей Немец

Пользователь

Сообщений: 212 Регистрация: 01.01.1970

03.06.2018 17:21:54

Добрый день!

У меня есть некоторые графики, в которых часто возникают скопления точек. Вот скриншот данных:

например, тут видно, что за определённый промежуток чаще всего точки оседали в диапазоне от 16 до 23 (по оси Y, отмечено 1). Чуть реже скопление, можно заметить также в диапазоне от 5 до 9 (отмечено 2).

Вопрос такой: какой формулой (или уравнением) можно было бы введя последовательность чисел, узнать, какие диапазоны по Y содержит наибольшее скопление точек (кластеры) на таком-то отрезке по оси X?

Прикрепленные файлы

claster.xlsx (16.31 КБ)

Ігор Гончаренко

Пользователь

Сообщений: 14576 Регистрация: 01.01.1970

03.06.2018 17:45:20

к сожалению использованное Вами слово "кластер" не несет никакой смысловой нагрузки в данном контексте (и особенно с данным примером файла)
то, что Вы красиво обвели красным цветом - чистой воды кластерный волюнтаризм, извините, воспользуясь Вашей терминолочией))
на участе для Х от 2 до 14 Вы обвели 6 значений У попавших между 16 и 23, одновременно стыдливо не заметив, что 7 значений на этом участке Х не попали в этот диапазон!

есть страндартная функция ЧАСТОТА, которая считает количество значений из выборки попавших в указанные диапазоны
а на самом деле,, похоже, Вам нужно определиться с формулировкой задачи, потому что (исходя из файла-примера) 100% на случайных числах от 0 до 40 ЛЮБЫЕ скопления значений в каких-то рамках имеют чисто СЛУЧАЙНЫЙ характер.

Программисты - это люди, решающие проблемы, о существовании которых Вы не подозревали, методами, которых Вы не понимаете!

Сергей Немец

Пользователь

Сообщений: 212 Регистрация: 01.01.1970

03.06.2018 18:12:36

Цитата
Ігор Гончаренко написал: У попавших между 16 и 23, одновременно стыдливо не заметив, что 7 значений на этом участке Х не попали в этот диапазон!

Почему стыдливо? Никакого стыда не испытываю вовсе. На мой взгляд эту точку можно отнести к "шуму", так и к кластеру.
Что в таком случае надо было писать вместо слова "кластер"? Можете читать вместо этого слова - скопление точек. Я специально написал в двух вариациях.
Случайные данные в файле ясное дело случайны, нет никакой надобности делать поиск скоплений точек в статическом массиве.

Ведь при визуальном осмотре можно заметить, что точки в какой-то области посеяны более плотнее. И я пытаюсь понять, можно ли программно это "видеть".
Может брать поочерёдно точки и сравнивать расстояния, например. Или там замерять евклидово расстояние, корреляция пирсона, и т.д. Тут как бы идеи приветствуются. С ваших слов понятно, что ничего нельзя поделать в этом случае.

Ігор Гончаренко

Пользователь

Сообщений: 14576 Регистрация: 01.01.1970

03.06.2018 18:32:09

нет. с моих слов:
Вы описываете условия задачи - находится кто-то, кто может ее решить
а пока нет условмй задачи никто ее решить не сможет

Ігор Гончаренко Пользователь Сообщений: 14576 Регистрация: 01.01.1970	#5 03.06.2018 18:54:54 понимаете, только в сказках Иван-дурак получал задачу, "пойди туда, не знаю куда, принеси то, не знаю что" мало того в этих же сказках он садился на серово волка или конька-горбунка и справлялся с задачей с соответствии с полученным тех. заданием. задача найти самый короткий диапазон Х1 и Х2, в котором количество значений между мин.У и макс.У в этом диапазоне составляло бы не меенее 50% от общего количества значений. Вот задача которую можно решать. Но совершенно не факт что это задача, которую нужно решить Вам! и в Вашем случае дело не в слове "кластер", а в отсутсвии задачи. нет задачи - нет решения. разве это не очевидно? Программисты - это люди, решающие проблемы, о существовании которых Вы не подозревали, методами, которых Вы не понимаете!