Пусть - выборка объема n из генеральной совокупности, имеющей функцию распределения .
Эмпирической функцией распределения, соответствующей выборке , называется функция
,
где - индикатор множества , а - число выборочных значений, не превосходящих .
Неизвестную функцию распределения наблюдаемой случайной величины при этом называют теоретической функцией распределения.
Для заданной выборки эмпирическая функция распределения определена на всей числовой прямой и обладает всеми свойствами обычной функции распределения:
1. для любого ;
2. является функцией неубывающей;
3. является функцией непрерывной слева;
4. является кусочно-постоянной функцией и возрастает только в точках, являющихся значениями случайной величины , причем:
если все значения различны, то
при , , ;
если - различные значения среди , то
,
где - частота значения , .
График эмпирической функции распределения в общем случае имеет в ид:
Другими словами, эмпирическая функция распределения является функцией распределения выборочной дискретной случайной величины , имеющей закон распределения:
…
…
Принципиальное отличие эмпирической функции распределения от обычной функции распределения состоит в том, что она может изменяться от выборки к выборке, являясь при любом фиксированном х реализацией случайной функции
,
где - копии случайной величины .
Важнейшим свойством эмпирической функции распределения , как случайной функции, является то, что она для любого при увеличении объема выборки сближается (в смысле сходимости по вероятности) с теоретической функцией распределения .
Теорема 1. Пусть - эмпирическая функция распределения, соответствующая выборке из генеральной совокупности, имеющей теоретическую функцию распределения . Тогда для любого
.
▲ Рассмотрим случайную величину и обозначим (при фиксированном x). Случайные величины принимают два значения 0 и 1 с вероятностями и , соответственно. Поскольку все случайные величины - копии наблюдаемой случайной величины , то . При этом
,
.
Следовательно, последовательность независимых одинаково распределенных случайных величин подчиняется закону больших чисел, то есть
■.
Таким образом, при больших n эмпирическая функция распределения в каждой точке х может служить приближенным значением (оценкой) неизвестной теоретической функции распределения в этой точке. Эмпирическую функцию распределения при этом также называют статистическим аналогом неизвестной функции распределения .
Справедлив и следующий гораздо более сильный результат, принадлежащий В.И. Гливенко (1933г.).
Теорема 2. (без доказательства). В условиях теоремы 1
Утверждение теоремы 2 означает, что отклонение
эмпирической функции распределения на всей числовой прямой с вероятностью 1 будет сколь угодно мало при достаточно большом объеме выборки.
Приведем еще один результат, принадлежащий А.Н. Колмогорову (1933г.), который позволяет для больших n оценивать вероятности заданных отклонений случайной величины от нуля.
Теорема 3 (без доказательства). Если теоретическая функция распределения непрерывна, то для любого фиксированного
.
При этом предельную функцию можно с хорошим приближением использовать для практических расчетов уже при .
Функция является функцией распределения, если положить при и называется функцией Колмогорова. Она играет большую роль в математической статистике, значения функции табулированы.