Классификация (от класс и лат. Facio делают, раскладывают) – это система соподчиненных классов объектов какой-либо области знания, используемая для установления связей между классами для уточнения положения в исходном множестве объектов.
Классификация – это ступень от эмпирического накопления знания к этапу математической обработки с позиции системного подхода.
Классификация, кластеризация – методы, широко используемые в современной математической таксономии, − позволяют наглядно представить сходства и различия биологических объектов, охарактеризованным по многим параметрам. Эти подходы можно применять в самых разных областях биологии, в частности, для сравнения условий среды в сериях местообитаний, выявления различий и сходства между сообществами живых организмов, отдельными их популяциями, группами, особями и т.п.. Кластерный анализ, как и многие другие многомерные статистические приемы, не имеет достаточно разработанного математического аппарата для статистического оценивания полученных данных. Его основная функция – выявление скрытой структуры биологического материала.
Суть кластерного анализа сводится к нахождению “расстояния” (меры различия) между объектами по всей совокупности параметров и изображению их отношений графически. В принципе любой признак можно рассматривать как меру расстояния между объектами. Например, разность длины тела двух полевок – есть не что иное, как расстояние между ними по одному признаку. Достоинство кластерного анализа заключается в том, что он позволяет свести все множество анализируемых признаков к одному – обобщенной мере расстояния между каждой парой изучаемых объектов. Один из вариантов такой меры основан на коэффициенте сходства Съеренсена, который используется для сравнения многовидовых сообществ животных или растений. Мера расстояния при решении подобных задач вычисляется по формуле:
S= ,
где B и C – число видов животных в сравниваемых сообществах,
A – число общих видов.
Пример: анализ многовидовых биоценотических группировок млекопитающих Приладожъя. В итоге многолетних исследований установлено средняя численность 14 видов землероек и грызунов в 7 основных биотопов: лишайниковых сосняках (А), сосняках-зеленомошниках (Б), ельниках (В), спелых лиственных и смешанных лесах (Г), лиственном мелколесье (Д), молодых зарастающих вырубках (Е) и по границе сенного луга и ольшаника (Ж). Встречаемость (по принципу отсутсвия-присутсвия) и относительная численность (экз. на 100 ловушко-суток) отдельных видов зверьков показана в таблицах 1 и 2. Дальнейшая процедура сводиться к следующему.
Таблица 1
№
Вид
Биотопы
А
Б
В
Г
Д
Е
Ж
Обыкновенная бурозубка
Средняя бурозубка
Малая бурозубка
Равнозубая бурозубка
Крошечная бурозубка
Водяная кутора
Лесная мышовка
Лесной лемминг
Полевая мышь
Мышь-малютка
Рыжая полевка
Красна полевка
Темная полевка
Полевка-экономка
Число видов
По данным таблицы 1 рассчитывается матрица S-расстояний между разными биотопами (табл. 2).
Смысл кластеризации (от слова “кластер” – гроздь, группа) состоит в последовательном объединении объектов в так называемые кластеры, т.е. в группы, где сходство между объектами выше, чем с другими объектами или кластерами. В начале объединяются наиболее сходные объекты (с наименьшем расстоянием между собой), затем приближающиеся к ним по этому показателю и так далее до момента слияния всех объектов в один общий кластер. Уровень каждого объединения фиксируется и затем отображается на графике.
Таблица 2.
А
0.27
0.50
0.50
0.33
0.34
0.64
Б
0.26
0.26
0.07
0.17
0.42
В
0.17
0.30
0.41
0.58
Г
0.20
0.41
0.47
Д
0.23
0.47
Е
0.33
Ж
Существует множество вариантов кластеризации, из них наиболее простым считается метод “ближайшего соседа”, не требующий обязательного использования ЭВМ. Сначала по матрице расстояний отыскиваются ближайшие соседи и заносятся в таблицу наименьших расстояний (таблица 3). Так из всех изученных биотопов по видовому составу мелких млекопитающих ближе всего к вырубкам (Е) оказался сосняк-зеленомошник (Б): SЕБ=0.17.
Таблица 3.
Сосед 1
Сосед 2
Расстояние
Сосед 2
Расстояние
А
Б
0.27
Б
Д
0.07
В
Г
0.17
Б
0.26
Г
В
0.17
Д
0.20
Д
Б
0.07
Е
Б
0.17
Ж
Е
0.33
Заполнив три первые графы, приступает к построению предварительного дерева расстояний (рисунок 1). Для этого отмечая на графике индексы объектов и расстояния между ними, соединяют их прямыми линиями. В нашем случае сначала образовалось два отдельных кластера (АБДЕЖ и ВГ), но их может быть и больше. Теперь вновь возвращаемся к таблицам 2 и 3. В четвертой графе против объектов из меньшего кластера следует отметить индекс ближайших объектов из большого кластера, а в пятой – расстояние между ними. Далее выбираем звено наименьшей протяженности – это спелые лиственные леса (Г) и молодняки (Д): SГД=0.20. Соединим на рисунке 1 кластеры пунктирной линией, и кластеризация завершена.
Рис. 1. I – схема поэтапной кластеризации; II – “дерево минимальной протяженности”; А – Ж – индексы биотопов (см. текст).
Рис. 1. I – схема поэтапной кластеризации; II – “дерево минимальной протяженности”; А – Ж – индексы биотопов (см. текст).
Последний этап – построение окончательного варианта дендрограммы. Представленное на рисунке 1 “дерево минимальной протяженности” строится с учетом единственного условия – соблюдения пропорций расстояний между биотопами-соседями. Классический вариант дендрограммы приведен на рисунке 2. По оси абсцисс размещаются объекты в том порядке, который продиктован логикой их связей и субъективными вкусами исследователя, отдельные ветви “дерева” при этом не должны пересекаться. По оси ординат откладывается расстояние между ближайшими соседями.
Кластерный анализ выделил группы биотопов, наиболее близких по условиям обитания и видовому составу зверьков. Наиболее богаты видами еловые и смешанные леса (В и Г). Обедненными териокомплексами, представленными в основном политопными видами, характеризуются сосняки-зеленомошняки, вырубки и лиственное мелколесье. Выявляется близость населения зверьков из двух типов сосняков (Б и А), но в лишайниковых сосняках видов еще меньше. Особое положение занимает биотопический комплекс экотона – границы между лугом и лесом (Ж), включающий представителей смешанных биотопов.
Помимо индекса сходства видовых списков Съеренсена в кластерном анализе для учета количественных признаков используется евклидово мера расстояния:
где xkj – значение k-го признака у j-го и i-го объектов,
М – число учитываемях признаков.
Таблица 4
Вид
Численность, экз. на 10 канаво-суток
Сосняки-зеленомошники (Б)
Ельники (В)
Мелколесье (Д)
Обыкновенная бурозубка
3,9
7,2
Средняя бурозубка
1,8
1,1
0,5
Малая бурозубка
1,9
2,0
1,6
Равнозубая бурозубка
0,01
0,2
0,1
Крошечная бурозубка
0,04
0,04
Водяная кутора
0,04
0,06
0,4
Лесная мышовка
0,6
0,3
0,7
Лесной лемминг
0,2
0,05
Мышь-малютка
0,04
Рыжая полевка
1,5
0,8
0,8
Красна полевка
0,06
0,6
0,02
Темная полевка
0,2
0,7
Полевка-экономка
0,2
0,2
Число видов
10,3
12,9
10,9
Подготовив матрицу расстояний между объектами по комплексу количественных признаков, проводят кластеризацию и построение дендрограмм по описанному выше методу.
Рассмотрим эту процедуру на примере в трех биотопах : сосняках-зеленомошниках (Б), ельниках (В) и мелколесье (Д), но по данным количественных учетов канавками (экз. на 10 канавко-суток, табл.4).
Рассчитаем евклидово расстояни между двумя биотопами –сосняком (Б) и ельником (В):
d2= а dбв=
Повторив процедуру для други=х пар биотопов, получим dбд=0,741 и dвд=0,417.
Сведем полученные данные в матрицу расстояний:
Б
0,97
0,74
Сосед 1
Сосед 2
Расстотяние
В
0,42
Б
Д
0,74
Д
В
Д
0,42
Д
В
0,42
Дендрограмма “дерево минимальной протяженности” приведена на рисунках 1 и 2. Их анализ показывает, что выявленный характер отношений между биоценотическими комплексами млекопитающих сохраняется в независимости от метода количественных учетов: и по видовому составу, и по численности (показатель учета) население зверьков сосняков зеленомошников все же ближе к мелколесью, чем к зеленомошным ельникам.
Если изучаемые признаки имеют разную размерность, то вместо таблицы исходных данных (см. таб. 4) для вычисления евклидовой меры расстояния следует подготовить таблицу нормированных значений. Для этого по каждой строке первичной таблицы рассчитываются средняя арифметическая (Mi) и сигма (σi), а затем – нормированное значение каждой варианты из этой строки: , где V – исходные значения вариант i-ой строки (i-го признака).
Например, для 1-й строки таблицы 4 M1=5.7, а σ1=1,67. Новые значения строки будут равны:
V‛11= V‛12= V‛13= и т.д. Полученная таблица используется для вычисления евклидовой меры расстояния между объектами по рассмотренному выше алгоритму.