Этап 1. Отбор выборки для кластеризации.
Некоторые алгоритмы кластерного анализа имеют ограничения по численности классифицируемых объектов (например, иерархический кластерный анализ). В связи с этим исследователи вынуждены ограничивать анализ изучением подвыборок, которые чаще всего формируются случайным образом.
Этап 2. Определение множества признаков, по которым будут оцениваться объекты
Выбор переменных является одним из наиболее важных шагов в исследовательском процессе. Основная проблема состоит в том, чтобы найти ту совокупность переменных, которая наилучшим образом отражает понятие сходства. В идеале переменные должны выбираться в соответствии с ясно сформулированной теорией, которая лежит в основе классификации. Однако на практике теория, обосновывающая классификационные исследования часто не сформулирована, и поэтому бывает трудно оценить, насколько выбор переменных соответствует поставленной задаче. Зачастую отсутствие ясно сформулированной теории приводит к тому, что исследователь использует в КА как можно большее количество переменных, в надежде на то, что в данных проявится некоторая «структура». Такой подход является непродуктивным.