Исключение аномальных значений

Обработка и анализ результатов наблюдений

Решение задач контроля, прогнозирования и моделирования обычно предусматривает обязательную обработку статистической информации о наблюдаемом процессе. Обычно под термином статистическая обработка данных понимают:

· исключение аномальных значений;

· статистическое сглаживание;

· проверку стационарности;

· формирование интервальной оценки текущего среднего.

Исключение аномальных значений в статистических данных обычно выполняют с использованием следующих алгоритмов:

· алгоритма на основе статистики Диксона;

· алгоритма на основе r-статистики;

· алгоритма на основе "стандартной статистики".

Каждый из этих алгоритмов в определенных условиях самодостаточен, однако последовательное их применение исключает возможность ошибочного отнесения того или иного значения параметров наблюдения в категорию "выброса". Отнесение данного в категорию «выброса» осуществляется лишь в случае, когда не менее двух из трех алгоритмов свидетельствуют об этом. Предлагаемые алгоритмы инвариантны как для минимальных, так и для максимальных значений выборки. Ниже они рассмотрены применительно к наибольшему экстремальному значению ряда.

Алгоритм на основе статистики Диксона. В основе алгоритма вычисление статистики

r_n= Ѕ(x_n-x_n-1)Ѕ / Ѕ(x_n-x₁)Ѕ

квантили которой табулированы при заданном критическом уровне значимости б и известном объеме наблюдений n. В случае, если квантиль распределения r_б(n) >r_n, то гипотеза об аномальном характере последнего члена вариационного ряда x_nпринимается. В противном случае гипотеза отвергается.

Алгоритм на основе r-статистики.В основе алгоритма вычисление статистики вида:

r_n= Ѕ(x_n-x_ср)Ѕ / {S_xЧ[(n- 1) /n]^0,5},

где x_ср - среднее арифметическое ряда;

S_x - СКО ряда.

При заданном критическом уровне значимости б и числе степеней свободы f=n- 2 табулировано критическое значение статистики r_б(n). Гипотеза об аномальном характере принимается или отвергается аналогично первому алгоритму.

Алгоритм на основе "стандартной статистики".В основе этого алгоритма находится вычисление статистики вида:

r_n= Ѕ(x_n-x_ср)Ѕ /S_x,

где переменные x_ср и s_x имеют такой же смысл, как и в предыдущем случае. Статистика r_n табулирована при заданном объеме выборки nи критическом уровне значимости б.