Когда наступает правило автоматической остановки машинного эксперимента с моделью, в моделирующем алгоритме управление передается операторам и блокам, осуществляющим обработку и анализ полученных статистических данных и результатов моделирования. Рассмотрим наиболее распространенные методы и процедуры оценки и анализа результатов статистического моделирования систем и процессов.
а) Оценки среднего значения и дисперсии. Пусть исследуемая характеристика в общем случае является случайной величиной, которую мы обозначим через Х, с заданным законом распределения fX(x), - ¥ £ x £ + ¥. Первые два момента этой случайной величины – математическое ожидание M[X] и дисперсия D[X] определяются с помощью формул
mХ = M[X] = (5.8)
sХ2 = D[X] = (5.9)
При моделировании мы получаем эмпирические оценки этих величин в виде
(5.10)
SX2 = (1/(N – 1)) (5.11)
В этих соотношениях величина N по-прежнему характеризует объем выборки. Относительно оценок и SX2 говорят об их несмещенности, состоятельности и эффективности. Более подробно об этих понятиях речь пойдет в разделе построения зависимостей, здесь же отметим, что несмещенность оценок означает, что
а) M[] = mХ; (5.12)
б) М[ SX2] =sХ2; (5.13)
Рекомендуется выполнить доказательство этих соотношений самостоятельно, учитывая при этом, что величины xi, i = 1, … , N, также распределены по закону fX(x).
Оценка называется состоятельной, если имеет место условие
, (5.14)
где e - произвольная положительная величина.
Наконец, эффективность оценки означает, что она имеет минимальную дисперсию, которая, как легко можно доказать (это доказательство также поручается выполнить самостоятельно)
D[] = sХ2/ N. (5.15)
Как следует из этой формулы, при возрастании N дисперсия оценки стремится к нулю, что содержательно согласуется с формулой (5.14).
Точность оценки устанавливается с помощью соотношения (4.5), на основе которого получается связь между объемом выборки, точностью оценивания и доверительной вероятностью (см. пункт 4 настоящего раздела). Так как с учетом (5.15) условие
Pr{| - mХ | £ e} = P0(5.16)
эквивалентно условию
Pr{- e / (sx/ ) £ ( - mХ ) /(sx/ ) £ e / (sx/ ) = P0, (5.17)
для искомой связи получаем формулу
N= sx2 Ua2 / e 2, (5.18)
где величина Ua - квантиль нормального закона распределения.Итак, согласно формуле (5.18), для нахождения объема выборки, необходимо знать величины sx, Uaи e.
В процессе моделирования величина (5.10) может образоваться в одной лишь ячейке памяти, значение которой после завершения моделирования делится на N. Для формирования оценки дисперсии (5.11), удобно воспользоваться формулой
SX2 = { }/ (N - 1). (5.19)
Тогда для формирования этой информации непосредственно в процессе моделирования необходимо всего две ячейки памяти для хранения суммы величин xi и их квадратов xi2, i=1, … , N. Для иллюстрации рассмотрим следующие практические примеры.
Пример 1. Фирме необходимо оценить среднесуточный объем продукции так, чтобы с вероятностью 0.95 ошибка оценивания составляла не более ± 4 единиц, причем разумный допустимый размах колебаний продукции составляет 80 единиц.
В терминах формулы (5.16) задача заключается в нахождении оценки , которая с вероятностью 0.95 лежала внутри интервала ± 4, так что точность оценивания составляет = 4, а при отсутствии информации о дисперсии суточного объема продукции в качестве разумного размаха колебаний принимается величина 4sх, так что 4sх = 80 и sх = 20. Доверительной вероятности P0 = 0.95 соответствует табличное значение Ua = 1.96. Подставляя эти значения в формулу (5.18), находим
N= sx2 Ua2 / e 2 = 96.
Пример 2. Необходимо найти объем выборки (прогона модели) N, чтобы искомая оценка с доверительной вероятностью P0 = 0.95 лежала в пределах ± sх/4. В этой постановке задачи, в отличие от предыдущего примера, нет информации ни о разумном размахе колебании, ни об среднеквадратическом отклонении sх, но, согласно условиям задачи, = sх/4. Тогда по формуле (5.18) получим
N= (1.96sx) 2 /(sх/4) 2 = 61.
Пример 3. Определение объема выборки на основе неравенства Чебышева. Неравенство Чебышева имеет вид
Pr{|x - m| > k} £ 1/k2.
Это неравенство позволяет решить следующую задачу: найти объем выборки, при котором искомая оценка попадает в интервал ± sх/4 с заданной доверительной вероятностью P0 = 0.95. В терминах неравенства Чебышева это означает, что
Pr{|- m| > sх/4} £ 0.05,
так как согласно (5.16) имеем
Pr{ m - e £ £ m +- e } = 1 - a = 0.05,
Откуда следует, что
Pr{/m - / > ,
так как k= и 1/k2= 42/ N. На основе этих соотношений получаем оценку N = 320.
Напомним, что, согласно неравенстве Чебышева, в выборке объема N по меньшей мере 1 – 1/ k2измерений находятся вблизи среднего значения на расстоянии не более kсреднеквадратических отклонений.
Пример 4. Необходимо определить объем выборки, при которой эмпирическая оценка дисперсии отличается от дисперсии случайной величины не более чем на 5% с доверительной вероятностью P0 = 0.95. Чтобы решить эту задачу, воспользуемся формулой
В этой формуле величина d, 0 £ d £ 1, очевидно, характеризует степень близости оценки Sx2к истинной дисперсии sх2. В практическом плане удобнее в этом выражении для доверительной вероятности использовать c2 - статистику (N – 1) Sx2/sх2c N – 1 степенями свободы. Эта статистика позволяет сделать доверительную вероятность не зависящей от величины sх2. При достаточно большом значении выборки N распределение c2 можно аппроксимировать нормальным законом распределения и получить формулу
U2a/2 = d 2(N – 1)/2,
N = 1 + 2(Ua/2)2/ d 2.
Подставляя в эту формулу численные значения Ua/2 = 1.96, d = 0.05, получим для объема выборки значение N = 3074. Интересно отметить, что если в качестве допустимого отклонения Sx2 от sх2 выбрать не 5%, а 10%, то объем выборки будет равен N = 769.
б) Оценка вероятности события. Предположим, что в результате моделирования оценивается вероятность появления некоторого события А с предполагаемой (априорной, ожидаемой и т. д.) вероятностью рА. Обозначим через m количество благоприятных исходов в N независимых экспериментах. Тогда отношение m/N выступает в качестве эмпирической оценки вероятности рА. Точность этой оценки (и процесса оценивания) можно установить на основе формулы
Pr{| рА - m/N| £ e} = P0. (5.20)
Обозначим через x1 = 1 положительный исход экспериментов, а через x2 = 0 – отрицательный их исход. Тогда математическое ожидание и дисперсия случайной величины Х с такими реализациями будут равны соответственно величинам
Заметим теперь, что согласно центральной предельной теореме теории вероятностей, при достаточно большом значении N распределение оценки m/N будет приближаться к нормальному закону распределения вероятностей, поэтому формула (5.20) для этого случая примет форму
где f(.) – функция вероятности (функция Лапласа) со свойствами f(-u) = 1 - f(u),
u =( pA + e - pA) ;
v = ( pA - e - pA) .
Из этих соотношений непосредственно следует формула
e = Ua, (5.26)
где Ua - квантиль нормального распределения вероятностей, соответствующий уровню значимости a = (1 – P0)/2. Удобно представить формулу (5.26) в виде
N = Ua2pA(1 – pA)/ e 2, (5.27)
связывающей количество реализаций с точностью и достоверностью оценки m/N. Если априорная вероятность pAнаступления события неизвестна, можно проводить пробные эксперименты объема N0, по этой величине оценить pA, затем проводить моделирование и оценивание, как было описано выше.
в) Оценка коэффициента корреляции. Пусть необходимо с помощью результатов моделирования оценить коэффициент корреляции между случайными величинами X и Y с экспериментальными данными {xi} и {yi}, i= 1, … , N. Обозначив через sx и syсреднеквадратические отклонения этих величин, а через Sx и Sy – соответствующие эмпирические оценки, для эмпирической оценки коэффициента корреляции между случайными величинами X и Y получим выражение
kxy = (5.28)
Эту величину удобно преобразовать в форму
kxy = , (5.29)
откуда видно, что для формирования на ЭВМ необходимо будет использовать три ячейки памяти для запоминания сумм и произведения членов рядов {xi} и {yi}, i= 1, … , N.
г) Оценка среднего значения и корреляционной функции случайного процесса. Предположим, что результатом моделирования является некоторый случайный процесс X(t), t Î [0, T]. C целью получения оценок искомых величин интервал [0, T] разбиваем на отрезки с постоянным шагом Dt и фиксируем значения процесса xk(t) в фиксированные моменты времени t = tm = mDt, m = 1, 2, …, T/Dt. Тогда при обработке результатов моделирования в качестве оценки среднего значения процесса можно выбрать функцию
(5.30)
а в качестве оценки корреляционной функции
B(ti, tj) (5.31)
где tiи tj пробегают все значения tm = mDt, m = 1, 2, …, T/Dt. С целью рациональной организации памяти ЭВМ в процессе моделирования удобно представить (5.31) в форме