Предположим, что в результате измерений мы получили некоторую ограниченную совокупность результатов: (x1 x2 …xi…xn) при (i от 1до n) которая называется выборкой.
Для выборки вводится понятие эмпирической функции распределения. Эмпирическая функция распределения (функция распределения выборки) это функция Fn(x), которая определяет для каждого значения xi относительную частоту события X<x. Эмпирическая функция распределения имеет вид:
где: nx – число значений меньших х, n – объём выборки, а относительная частота значений выборки меньших x.
Эмпирическая функция распределения Fn(x) по вероятности стремится к теоретической функции распределения F(x) при больших количествах испытаний и обладает всеми свойствами F(x)
Генеральная совокупность, генеральная выборка (от лат. generis — общий, родовой) — совокупность всех возможных значений, относительно которых делаются выводы.
В отличие от эмпирической функции распределения выборки, интегральную функцию F(x) распределения генеральной совокупности называют теоретической функцией распределения. Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция F(x) определяет вероятность события Х.
Итак, эмпирическая функция распределения выборки, служит для оценки теоретической функции распределения генеральной совокупности.
Принимаем, что относительные частоты случайных событий близки к их вероятностям. Это тем более верно, чем больше число проведенных опытов. При этом частоты, как и вероятности, следует относить не к отдельным значениям случайной величины, а к интервалам. Это значит, что весь диапазон возможных значений случайной величины Х надо разбить на интервалы.
Зависимость частот nx / n от интервалов определяет эмпирическое распределение вероятностей случайной величины Х, графическое представление которой называется гистограммой
Гистограмма -это функция, приближающая плотность вероятности некоторого распределения, построенная на основе выборки из него.
Построение гистограмм используется для получения эмпирической оценки плотности распределения случайной величины. Для построения гистограммы наблюдаемый диапазон изменения случайной величины разбивается на несколько интервалов и подсчитывается доля от всех измерений, попавшая в каждый из интервалов. Тогда высота каждого интервала гистограммы равна соответствующей частоте. Таким образом, получается приближенное представление закона распределения вероятностей для случайной величины Х в виде ступенчатой функции, аппроксимация (выравнивание) которой некоторой кривой f(x) даст плотность распределения. Существенным для построения гистограммы является выбор оптимального разбиения, поскольку при увеличении интервалов снижается детализация оценки, а при уменьшении падает точность оценки значения плотности распределения.
На рисунке справа показан пример неоптимального разбития на интервалы.