Для построения иерархического разбиения множества задач А могут быть использованы методы [2, 4, 8]соединительного иерархического кластерного анализа, общий алгоритм которых может быть представлен в следующем виде:
Шаг 0. За исходное разбиение R0принять тривиальное разбиение множества задач A на n одноэлементных кластеров R0 ={Ai, i=1, 2, …,n}, где Ai={ai}. Положить начальный уровень разбиения l=0.
Шаг 1. Для заданного уровня разбиений lнайти наибольшее значение (в частности, целевого или функционального) сходства между кластерами
. Значение сходства определяется с использованием отображений соответственного целевого и функционального сходства g и f.
Шаг 2. Объединить соответствующие кластеры с наибольшим сходством в один кластер и образовать новое разбиение As=Aq È At. Положить l равное l+1.
Шаг 3. Проверить выполнение условия: card Rl=1 – мощность множества Rl(все задачи объединены в один кластер). Если оно выполняется, то завершить выполнение алгоритма. Если не выполняется, то перейти на шаг 4.
Шаг 4.Пересчитать значения сходства для кластеров нового разбиения по одной из приведенных ниже формул и перейти на шаг 1.
Пересчет значений сходства для кластеров нового разбиения можно осуществлять по следующим формулам, каждая из которых ассоциируется с названием соответствующего метода иерархического кластерного анализа:
1) метод ближайшего соседа (сильной связи):
2) метод дальнего соседа (слабой связи):
3) метод простого среднего (средней связи):
Для построения иерархического разбиения по целевому сходству Tgв качестве y используется отображение g, а по функциональному сходству Tf – отображение f.
Пример.
Проиллюстрируем работу описанного алгоритма с использованием метода ближайшего соседа для следующих исходных данных:
Начальное разбиение R0={{а1}, {а2}, {а3}, {а4}}. Максимальное сходство между А3 и А4 равно 0.9, что требует объединения указанных кластеров в один и построение нового разбиения R1={{а1}, {а2}, {а3, а4}}. Произведем пересчет целевого сходства для нового разбиения методом ближайшего соседа:
.
Максимальное сходство между А1={а1} и А’3={ а3, а4} равно 0.8, что требует объединения указанных кластеров в один и построение нового разбиения R2={{а2}, {а1, а3, а4}}. Произведем пересчет целевого сходства для нового разбиения методом ближайшего соседа:
.
Последнее объединение всех задач в исходное множество А={а1, а2, а3, а4} со значением целевого сходства 0.7.
Полученное иерархическое разбиения Tg изображается графически (рис. 7) в виде графа специального вида, получившего название дендрограммы (ребра графа идут параллельно вертикальной оси, которая изображает целевое сходство кластеров разбиений различных уровней).