Страницы: 1
RSS
Какие диапазоны по Y содержат наибольшее скопление точек (кластеры) на указанном отрезке X?
 

Добрый день!

У меня есть некоторые графики, в которых часто возникают скопления точек. Вот скриншот данных:

например,  тут видно, что за определённый промежуток чаще всего точки оседали в диапазоне от 16 до  23 (по оси Y, отмечено 1). Чуть реже скопление, можно заметить также в  диапазоне от 5 до 9 (отмечено 2).

Вопрос такой: какой формулой (или уравнением) можно было бы введя  последовательность чисел, узнать, какие диапазоны по Y содержит наибольшее  скопление точек (кластеры) на таком-то отрезке по оси X?

 
к сожалению использованное Вами слово "кластер" не несет никакой смысловой нагрузки в данном контексте (и особенно с данным примером файла)
то, что Вы красиво обвели красным цветом - чистой воды кластерный волюнтаризм, извините, воспользуясь Вашей терминолочией))
на участе для Х от 2 до 14 Вы обвели 6 значений У попавших между 16 и 23, одновременно стыдливо не заметив, что 7 значений на этом участке Х не попали в этот диапазон!

есть страндартная функция ЧАСТОТА, которая считает количество значений из выборки попавших в указанные диапазоны
а на самом деле,, похоже, Вам нужно определиться с формулировкой задачи, потому что (исходя из файла-примера) 100% на случайных числах от 0 до 40 ЛЮБЫЕ скопления значений в каких-то рамках имеют чисто СЛУЧАЙНЫЙ характер.
Программисты - это люди, решающие проблемы, о существовании которых Вы не подозревали, методами, которых Вы не понимаете!
 
Цитата
Ігор Гончаренко написал:
У попавших между 16 и 23, одновременно стыдливо не заметив, что 7 значений на этом участке Х не попали в этот диапазон!
Почему стыдливо? Никакого стыда не испытываю вовсе. На мой взгляд эту точку можно отнести к "шуму", так и к кластеру.
Что в таком случае надо было писать вместо слова "кластер"? Можете читать вместо этого слова - скопление точек. Я специально написал в двух вариациях.
Случайные данные в файле ясное дело случайны, нет никакой надобности делать поиск скоплений точек в статическом массиве.

Ведь при визуальном осмотре можно заметить, что точки в какой-то области посеяны более плотнее. И я пытаюсь понять, можно ли программно это "видеть".
Может брать поочерёдно точки и сравнивать расстояния, например. Или там замерять евклидово расстояние, корреляция пирсона, и т.д. Тут как бы идеи приветствуются. С ваших слов понятно, что ничего нельзя поделать в этом случае.
 
нет. с моих слов:
Вы описываете условия задачи - находится кто-то, кто может ее решить
а пока нет условмй задачи никто ее решить не сможет
Программисты - это люди, решающие проблемы, о существовании которых Вы не подозревали, методами, которых Вы не понимаете!
 
понимаете,
только в сказках Иван-дурак получал задачу, "пойди туда, не знаю куда, принеси то, не знаю что"
мало того в этих же сказках он садился на серово волка или конька-горбунка и справлялся  с задачей с соответствии с полученным тех. заданием.

задача найти самый короткий диапазон Х1 и Х2, в котором количество значений между мин.У и макс.У в этом диапазоне составляло бы не меенее 50% от общего количества значений.
Вот задача которую можно решать. Но совершенно не факт что это задача, которую нужно решить Вам!
и в Вашем случае дело не в слове "кластер", а в отсутсвии задачи. нет задачи - нет решения. разве это не очевидно?
Программисты - это люди, решающие проблемы, о существовании которых Вы не подозревали, методами, которых Вы не понимаете!
Страницы: 1
Наверх