Пусть
— множество объектов,
— множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами
. Имеется конечная обучающая выборка объектов
.
Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике
, а объекты разных кластеров существенно отличались. При этом каждому объекту
приписывается номер кластера
.
Алгоритм кластеризации — это функция
, которая любому объекту
ставит в соответствие номер кластера
. Множество
в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации.
Кластеризация (обучение без учителя) отличается от классификации (обучения с учителем) тем, что метки исходных объектов
изначально не заданы, и даже может быть неизвестно само множество
.