русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Выполнение кластерного анализа.


Дата добавления: 2015-08-31; просмотров: 978; Нарушение авторских прав


 

Кластерный анализ используется, когда заранее неизвестно, существует ли разделение совокупности объектов, описываемых количественными признаками, на какие-либо классы.

При кластерном анализе вычисляются в пространстве признаков расстояния между объектами и близко расположенные друг к другу объекты группируются в кластеры. Если на каком-то этапе анализа образованным кластерам удается дать содержательную интерпретацию, по смыслу конкретной задачи понять, в чем состоит различие между объектами, включенными в разные кластеры, то задача может считаться решенной, то есть найдена новая классификация объектов.

Далее на основе найденной классификации можно выполнить дискриминантный анализ и получить возможность классифицировать новые объекты.

Существуют разные стратегии проведения кластеризации: объединяющая и разделяющая. В каждой стратегии можно использовать разные метрики многомерного пространства признаков, основанные на разных формулах вычисления расстояний между объектами. Следует пробовать применять к конкретной задаче разные стратегии, пока не будет найдено решение задачи, или ни одна из стратегий не даст удовлетворительного решения.

· Введите исходные данные для кластерного анализа, записанные в файле. Для этого в меню "Файл" выберите команду "Ввести" или нажмите кнопку "Открыть". В окне "Чтение файла" найдите в списке в левой части окна файл с именем claи откройте его двойным щелчком правой клавиши мыши. (В ответ на вопрос "Очистить электронную таблицу?" нажмите кнопку "Yes"). В таблице представлены 20 объектов, описанные значениями четырех признаков Х1, Х2, Х3, Х4.

· С помощью меню «Статист» или клавишей F9 откройте окно «Статистические методы». Выберите в этом окне «Многомерные методы»-«Кластерный». В следующем окне нажмите кнопку [Все], чтобы включить в анализ все четыре переменные, затем нажмите кнопку [Утвердить].



· В следующем окне "Исходные данные" нажмите кнопку [Переменные-объекты]

· В следующем окне "Метрика вычисления расстояний" нажмите кнопку [Евклид]

· В следующем окне выбирается стратегия кластеризации - для стратегии "Объединяющая" нажмите кнопку [Ближайшего соседа]. (В ответ на вопрос "Выводить таблицу расстояний?" нажмите кнопку "No").

· Результаты расчета появляются на листе Rez, а также выводятся в виде графика, который называется дендрограммой. В окне "Посмотрите график" нажмите кнопку [Оставить]. Переключитесь на лист Gr2 с дендрограммой.

 

Интерпретация результатов расчета.

 

Дендрограмма наглядно иллюстрирует процесс кластеризации. По вертикальной оси графика откладываются расстояния между объектами, номера которых записаны вдоль горизонтальной оси. (Множитель Е1* означает, что все отсчеты по вертикальной оси надо умножать на 10). Например, объекты 2 и 14 расположены ближе всего друг к другу (расстояние между ними равно 1), поэтому эти два объекта в первую очередь объединяются в кластер. Далее к ним добавляются расположенные рядом (на расстоянии не более 6,5) объекты 8, 6 и 18, и т.д. Однако в целом выбранная стратегия дала неудовлетворительные результаты: пара объектов 16 и 19 не могут быть объединены ни с какой другой группой объектов, так как находятся от них на максимально большом расстоянии 25; то же самое можно сказать об стоящих особняком объектах 7 и 4. Более точно расстояния между объектами и их группами приведены в списке на листе Rez.

 

· Попробуйте применить другую стратегию кластеризации. С помощью меню «Статист» или клавишей F9 откройте окно «Статистические методы». Выберите в этом окне «Многомерные методы»-«Кластерный». В следующем окне нажмите кнопку [Все], чтобы включить в анализ все четыре переменные, затем нажмите кнопку [Утвердить].



· В следующем окне "Исходные данные" нажмите кнопку [Переменные-объекты]

· В следующем окне "Метрика вычисления расстояний" нажмите кнопку [Манхэттен]

· В следующем окне выбирается стратегия кластеризации - для стратегии "Объединяющая" нажмите кнопку [Уорда]. (В ответ на вопрос "Выводить таблицу расстояний?" нажмите кнопку "No").

· Результаты расчета появляются на листе Rez, а также выводятся в виде графика, который называется дендрограммой. В окне "Посмотрите график" нажмите кнопку [Оставить]. Переключитесь на лист Gr3 с новой дендрограммой.

Зафиксируйте полученную дендрограмму в рабочих тетрадях.

 

Интерпретация результатов расчета.

 

Теперь выбранная стратегия позволяет четко разделить все объекты на два кластера: один кластер составляют объекты 16, 19,10, 12, 9, 20, все остальные объекты образуют второй кластер. Расстояния между объектами внутри этих кластеров не превышают 16, в то время как расстояние между самими кластерами равно 48.

Запишите расстояние между кластерами, а также номера объектов, включаемых в каждый из двух кластеров, в рабочие тетради.

Далее необходимо найти конкретный смысл двух найденных кластеров, но для этого надо иметь содержательное описание признаков Х1, Х2, Х3, Х4, а также, по возможности, и другую содержательную информацию об объектах, чтобы посмотреть, чем отличаются объекты, относящиеся к двум разным кластерам. Если такой смысл будет найден, то можно утверждать о существовании двух классов рассматриваемых объектов.

 

· Проверьте результаты кластеризации, применив разделяющую стратегию. С помощью меню «Статист» или клавишей F9 откройте окно «Статистические методы». Выберите в этом окне «Многомерные методы»-«Кластерный». В следующем окне нажмите кнопку [Все], чтобы включить в анализ все четыре переменные, затем нажмите кнопку [Утвердить].



· В следующем окне "Исходные данные" нажмите кнопку [Переменные-объекты]

· В следующем окне "Метрика вычисления расстояний" нажмите кнопку [Манхэттен]

· В следующем окне выбирается стратегия кластеризации - для разделяющей стратегии необходимо сразу указать число итоговых кластеров - введите в поле "Число кластеров" значение 2 и нажмите кнопку [динамических сгущений]. (В ответ на вопрос "Выводить таблицу расстояний?" нажмите кнопку "No").

· В окне "График проекции кластеров" нажмите кнопку [Утвердить]. В окне "Посмотрите график" нажмите кнопку [Оставить].

· В следующем окне "График проекции кластеров" нажмите кнопку [Отменить].

· На листе Rez приведены результаты разделения объектов на 2 кластера и средние внутрикластерные расстояния. (Звездочкой помечены объекты, являющиеся центральными в кластере). Эти результаты совпадают с результатами, полученными в предыдущем методе.

· Переключитесь на лист Gr4 с графиком проекций кластеров на оси координат первых двух признаков Х1 иХ2. Как видно из графика, кластеры достаточно хорошо разделены в пространстве признаков.

· Переключитесь на лист Dat и введите в столбец Х4 номера классов объектов (1 или 2) в соответствии с найденным их разбиением на два кластера. Примените к полученной таблице дискриминантный анализ, определите, чему равны расстояние Махаланобиса и его значимость, а также вероятности правильной классификации объектов.

 



<== предыдущая лекция | следующая лекция ==>
Выполнение дискриминантного анализа. | Выполнение факторного анализа.


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.269 сек.