Процедура кластеризации решает вопрос о подобии объектов, которые характеризуются значениями многих параметров, на основе формальных математических критериев. Это позволяет заменить длительный и трудоемкий процесс изучения и сравнения активов более скорым вычислительным алгоритмом. Кроме того, будучи средством анализа многомерных данных, кластеризация позволяет выделить объекты с близкими значениями всех параметров.
Первое применение кластерный анализ нашел в социологии. Название кластерный анализ походит от английского слова cluster – гроздь, скопление. Впервые в 1939 г. был определен предмет кластерного анализа и сделано его описание исследователем Трионом. Главное назначение кластерного анализа – деление множества исследуемых объектов и признаков на однородные в соответствующем понимании группы или кластеры. Это значит, что решается задача классификации данных и выявления соответствующей структуры в ней. Методы кластерного анализа можно применять во всевозможных случаях, даже в тех случаях, когда речь идет о простой группировке, в которой все сводится к образованию групп по количественному подобию [25].
Большое достоинство кластерного анализа в том, что он позволяет делать деление объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не налагает никаких ограничений на вид рассмотренных объектов, и позволяет рассматривать множество выходных данных практически произвольной природы. Это имеет большое значение, например, для прогнозирования конъюнктуры, когда показатели имеют многообразный вид, что осложняет применение традиционных эконометричных подходов. Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы социально-экономической информации, делать их компактными и наглядными.
Важно значение кластерный анализ имеет относительно совокупности временных рядов, которые характеризуют экономическое развитие (например, общехозяйственной и товарной конъюнктуры). Здесь можно выделять периоды, когда значения соответствующих показателей были достаточно близкими, а также определять группы временных рядов, динамика которых наиболее похожа.
Кластерный анализ можно использовать циклический. В этом случае исследования производится до тех пор, пока не будут достигнуты необходимые результаты. При этом каждый цикл здесь может подавать информацию, которая способна сильно изменить направленность и подходы последующего применения кластерного анализа. Этот процесс можно представить системой с обратной связью.
В задачах социально-экономического прогнозирования достаточно перспективным является сочетание кластерного анализа с другими количественными методами (например, с регрессионным анализом).
Как и любой другой метод, кластерный анализ имеет определены недостатки и ограничение. В частности, состав и количество кластеров зависит от избранных критериев распределения. При сводке исходного массива данных к более компактному виду могут возникать определены перекручивания, а также могут теряться индивидуальные черты отдельных объектов за счет замены их характеристиками обобщенных значений параметров кластера. При проведении классификации объектов очень часто игнорируется возможность отсутствия в рассмотренной совокупности каких-либо значений кластеров.
Выбор масштаба играет большую роль. Как правило, данные нормализуют вычетом среднего и делением на стандартное отклонение, так что дисперсия оказывается ровной единице.