Кластеризация точек на диаграмме Excel

Пользователь

Сообщений: 18 Регистрация: 15.10.2015

17.10.2015 14:21:56

Доброго времени суток, умным людям!
Дано:
А(нижний предел) = 0; В(верхний предел) = 200; N(количество точек) = 100. Генерируем Х и У функцией СЛУЧМЕЖДУ(А;В) протягиваем формулу, пока ни получится N точек, то бишь 100. Копируем только значения, получаем набор случайных пар (Х;У)
Задача:
С помощью VBA произвести кластеризацию объектов(точек с координатами(Х;У)). Правила останова: 1) 7 или менее кластеров; 2) более одного объекта в каждом кластере.
Решение:
Изначально количество кластеров = количеству точек, то есть каждая точка в своем кластере. Находим "центры масс" кластеров (Mi=((сумма Хi )/Nx; (сумма Уi)/Ny) на данном этапе это - координаты точек, для каждого кластера. Теперь нужно найти расстояния между всеми центрами масс, то есть от каждой точки до всех остальных.R=(Xi-X(i+1))^2+(Yi-Y(i+1))^2. Выбрать среди них наименьшее и соединить эти два кластера в один. Опять найти центры масс для каждого кластера, опять найти все расстояния между центрами масс, определить наименьшее, объединить два соответствующих кластера в один. И так до тех пор пока количество кластеров не буден меньше либо равно семи, и при этом в каждом кластере будет более одного объекта. В итоге должна получиться точечная диаграмма на которой точки принадлежащие к одному кластеру окрашены в какой-нибудь свой цвет. В добавок ко всему, весь процесс должен быть каким то образом заметен, но это пока не так важно. Мне б для начала с самой задачей разобраться. Я вообще не очень то с VBA знакома, но в паскале программки писать приходилось, и даже немного получалось. Языки, как я поняла, родные. Но я даже не знаю с чего начать. Помогите, кто чем может. :oops:

Важен любой совет. Посмотрите код мой в сообщениях ниже, может что и присоветуете)))

Прикрепленные файлы

Кластеризация.xlsx (18.46 КБ)

Изменено: staylecolor - 19.10.2015 19:30:44

Андрей VG

Пользователь

Сообщений: 11927 Регистрация: 22.12.2012

Excel 2016, 365

17.10.2015 17:29:14

Доброе время суток

Цитата
staylecolor написал: Генерируем Х и У функцией СЛУЧМЕЖДУ(А;В)

С таким же успехом можно генерировать и просто по регулярной сетке. Критерия выявления кластера на равномерном случайном распределении точек нет. Лучше уж скачайте и подготовьте исходный файл, например, координат населённых пунктов РФ - хоть что то можно будет говорить о кластерном анализе.

staylecolor

Пользователь

Сообщений: 18 Регистрация: 15.10.2015

17.10.2015 17:39:05

Способ генерации определен преподом. Критерий кластеризации (если можно так сказать) - расстояние между точками на диаграмме. Алгоритм у меня уже есть, я написала его в теме весь. Нужен код для макроса. А я даже не умею массивы в VBA объявлять, да и не вполне понимаю какие и сколько в данном случае мне нужны.

staylecolor Пользователь Сообщений: 18 Регистрация: 15.10.2015	#4 17.10.2015 18:09:10 Подскажите пожалуйста, хоть с чего начать, хоть последовательность действий, хоть что-нибудь, кто что знает. Любая информация.

Андрей VG

Пользователь

Сообщений: 11927 Регистрация: 22.12.2012

Excel 2016, 365

18.10.2015 14:11:19

Доброе время суток

Цитата
staylecolor написал: Подскажите пожалуйста, хоть с чего начать,

Цитата
staylecolor написал: но в паскале программки писать приходилось, и даже немного получалось

Вот и сделайте на код на Pascal - на VBA переведём.

staylecolor

Пользователь

Сообщений: 18 Регистрация: 15.10.2015

19.10.2015 19:26:34

Цитата
Андрей VG написал: Вот и сделайте на код на Pascal - на VBA переведём.

Скрытый текст

Код

Sub Кластеризация

Dim XX(1..100),

        YY(1..100),

//столбцы таблицы с координатами точек 

          X(1..100), 

          Y(1..100),

//рабочие массивы содержащие координаты центров масс текущих кластеров

          R(1..100,1..100),

//массив расстояний между центрами масс

        NT(1..100,1..100),

//номера точек вошедших в кластеры

      NKL(1..100),

//номер кластера для простановки в исходную таблицу

         M(1..100);

//мощность кластера

 Dim 
 N, I, J, IMIN, JMIN,  NK, RMIN,
RT;

       //не знаю как сослаться на
ячейку, вдобавок еще и на другой лист, так что:

      N=100;

 //цикл заполнения исходного
массива (как для Pascal):

          For I=1 to N

                  XX(I)=REN(1,200);

                  YY(I)=REN(1,200);

                    X(I)=XX(I);

                    Y(I)=YY(I);

                  M(I)=1;

                  NT(I,1)=I;

                  NK=N;

                  NT(J)=I;

            Next;

 //Цикл кластеризации:

             While NK>7 

                For I=1 to NK-1 

                   For J=I+1 to NK 

                      R(I,J)=sqrt((X(I)-X(J))*(X(I)-X(J))+(Y(I)-Y(J))*(Y(I)-Y(J)));

               
   Next;

                Next;    

                   RMIN=R(1,2); IMIN=1; JMIN=2;

                     For I=1 to NK-1 

                        For J=I+1 to NK 

                              If R(I,J)>=RMIN
then CONTINUE;

                                    RMIN=R(I,J);

                                     IMIN=I;

                                     JMIN=J;

                        Next;

                     Next;

                     X(IMIN)=(X(IMIN)+X(JMIN))/2;

                     Y(IMIN)=(Y(IMIN)+Y(JMIN))/2;

                   M(IMIN)=M(IMIN)+M(JMIN);

              For J=1 to M(JMIN) do

                 NT(IMIN,M(IMIN)+J)=NT(JMIN,J);

              Next;

              If JMIN< NK-1 then

          For I= JMIN to NK-2 do

               X(I)=X(I+1);

               Y(I)=Y(I+1);

              M(I)=M(I+1);

                 For J=1 to N do

                       NK(I,J)=NT(I+1,J)

                Next;

          Next;

     NK=NK-1;

  Wend;

 

For I=1 to NK do

For J= 1 to M(I) do

NKL(  NK(I,J))=I;

Next; 

Next;

End Sub

Андрей VG, Пока только с условием, что NК> или =7, но там я додумаю. Получилось что-то между паскалем и VBA. :oops:

staylecolor

Пользователь

Сообщений: 18 Регистрация: 15.10.2015

19.10.2015 20:24:04

Андрей VG,

Код

for J=1 to NK do
if M(J)>1 then CONTINUE;
IMIN = 100;
RMIN =1000;
for I=1 to N do
If I=J then Continue
RT=sqrt((XX(J)-XX(I))*(XX(J)-XX(I))+(YY(J)-YY(I))*(YY(J)-YY(I)));
if RT>RMIN then CONTINUE;
RMIN=RT;
IMIN=I;
Next;
NKL(I)=NKL(IMIN);
next

это избавление от изолированных точек

Максим Зеленский Пользователь Сообщений: 4663 Регистрация: 11.06.2014 Microsoft MVP 2018-2022	#8 19.10.2015 20:36:24 Это, по описанию, похоже на алгоритм k-means http://www.kdnuggets.com/2015/05/top-10-data-mining-algorithms-explained.html Может, кто-то и делал на VBA... F1 творит чудеса

staylecolor

Пользователь

Сообщений: 18 Регистрация: 15.10.2015

19.10.2015 21:09:39

Максим Зеленский, да это метод к-средних. Но я в инете не нашла ничего полезного для себя. Мне надо код адаптировать под VBA. Я почитала про этот язык. Там столько всего... и массивы динамические, и опять же заполнять изначально массив координат нет нужды, так ка это значения из таблицы Excel.

Андрей VG

Пользователь

Сообщений: 11927 Регистрация: 22.12.2012

Excel 2016, 365

#10

20.10.2015 11:17:36

Доброе время суток

Цитата
staylecolor написал: Mi=((сумма Хi )/Nx; (сумма Уi)/Ny)

тогда начальные центры кластеров будут совпадать

Цитата
Это, по описанию, похоже на алгоритм k-means

Увы, не похоже. Главное в Кластеризация: метод k-средних начальное число кластеров задаётся изначально и не меняется. Их начальные координаты берутся либо случайно, либо задаются, а затем уточняются по точкам, которые являются ближайшими по расстоянию к этому центру.
В приведённом в первом посте описании - точки "отъёдаются" у одного кластера другим, который по расстоянию ближайший к нему

Цитата
опять найти все расстояния между центрами масс, определить наименьшее, объединить два соответствующих кластера в один.

При этом на случайном массиве получается ерунда. Фактически, один из кластеров "поедает" все остальные.
В примере в методе Кластеризация на операторе Stop можно посмотреть в Locals что находится в 7 оставшихся в "живых" кластерах". В силу это вывод результата делать не стал.
Либо преподаватель не всё уточнил в предлагаемом алгоритме, либо он приведён здесь кривовато.

Прикрепленные файлы

Кластерный2.xlsb (22.74 КБ)

staylecolor Пользователь Сообщений: 18 Регистрация: 15.10.2015	#11 20.10.2015 16:12:47 Андрей VG, спасибо огромное! Я буду разбираться. Теперь есть с чем))) ОГРОМНОЕ СПАСИБО 100000000 РАЗ!

Андрей VG

Пользователь

Сообщений: 11927 Регистрация: 22.12.2012

Excel 2016, 365

#12

21.10.2015 05:18:33

Доброе время суток
Вариант для k-means. Число кластеров задаётся пользователем от 3 до 8. Положение первого определяется как центр, остальные с равным шагом по кругу со случайным начальным положением начального угла. Построением на разных диаграммах видно один из недостатков k-mens зависимость отнесения точек к кластеру от начального положения кластеров.

P. S. Так и не нашёл, как убрать обводку вокруг точек на графике.

Прикрепленные файлы

Кластерный3.xlsb (31.28 КБ)

Андрей VG Пользователь Сообщений: 11927 Регистрация: 22.12.2012 Excel 2016, 365	#13 21.10.2015 08:56:58 Вариант а-ля c-means Прикрепленные файлы Кластерный4.xlsb (39.33 КБ)

staylecolor

Пользователь

Сообщений: 18 Регистрация: 15.10.2015

#14

22.10.2015 09:00:44

Андрей VG, ого!!! Спасибо огромное!

Цитата
Андрей VG написал: Либо преподаватель не всё уточнил в предлагаемом алгоритме, либо он приведён здесь кривовато.

у меня задание такое - не совсем метод К-средних. Изначально, количество кластеров = количеству точек. Но мне все варианты пригодятся, чтобы разобраться.

Андрей VG

Пользователь

Сообщений: 11927 Регистрация: 22.12.2012

Excel 2016, 365

#15

22.10.2015 10:51:51

Цитата
staylecolor написал: у меня задание такое - не совсем метод К-средних

А как же

Цитата
staylecolor написал: Максим Зеленский, да это метод к-средних.

Где истина?
На заданных условиях в первом посте - задача не решаема. Должны быть ещё ограничения. Наиболее толковое описание c-means. Моя версия некоторая смесь k-mean с идеями c-mean (высчитывается не среднее положение центра по координатам ближайших точек, а средневзвешенное).

Андрей VG

Пользователь

Сообщений: 11927 Регистрация: 22.12.2012

Excel 2016, 365

#16

23.10.2015 10:04:30

Цитата
Андрей VG написал: либо он приведён здесь кривовато.

Цитата
staylecolor написал: определить наименьшее, объединить два соответствующих кластера в один.

Так вот ты какой "олень северный"

Olezha28 Пользователь Сообщений: 78 Регистрация: 13.07.2017	#17 11.11.2018 23:41:52 А можно ли еще рядом с каждым значением выводить номер кластера?

Olezha28 Пользователь Сообщений: 78 Регистрация: 13.07.2017	#18 12.11.2018 00:30:15 Еще хотелось бы понять в связи с чем при заполнении своими данными макрос ругается на данную строчку Прикрепленные файлы 2.PNG (12.08 КБ) 1.PNG (12.15 КБ)

Андрей VG

Пользователь

Сообщений: 11927 Регистрация: 22.12.2012

Excel 2016, 365

#19

12.11.2018 08:10:44

Цитата
Olezha28 написал: А можно ли еще рядом с каждым значением выводить номер кластера?

Странный вопрос - вы разрешения спрашиваете? Конечно можно - код в полном распоряжении участников форума.

Цитата
Olezha28 написал: ще хотелось бы понять в связи с чем при заполнении своими данными макрос ругается на данную строчку

Включите в Options, вкладка General, группа Error Trapping опцию Break in class module и проанализируйте, почему возникает переполнение.

Olezha28 Пользователь Сообщений: 78 Регистрация: 13.07.2017	#20 12.11.2018 08:43:21 Извините, но я не обладаю достаточным уровнем знаний чтобы справится с этой задачей, не силен в VBA и продебажить ошибку не входит

Андрей VG

Пользователь

Сообщений: 11927 Регистрация: 22.12.2012

Excel 2016, 365

#21

12.11.2018 09:22:39

Цитата
Olezha28 написал: не силен в VBA и продебажить ошибку не входит

Чтобы это значило Берримор? Куда не входит - в крынку?
Если вы об этих тестируемых данных, то у вас один из кластеров вырождается в одну точку - от этого и ошибка. Вам же в той теме писали - не делается кластерный анализ на 12 значениях - это бессмысленно.

Изменено: Андрей VG - 12.11.2018 09:23:06