Множество объектов, обладающих общими количественными или качественными признаками и являющихся предметом изучения, образуют генеральную совокупность. По значению признака (или набора признаков), характеризующего любую генеральную совокупность всегда можно однозначно определить, относится данный объект к генеральной совокупности или нет.
Часть объектов генеральной совокупности, специальным образом отобранных и выступающих в качестве объектов наблюдения, называется выборочной совокупностью (выборкой). Выборочная совокупность конструируется таким образом, чтобы при минимуме исследуемых объектов удавалось с необходимой степенью гарантии представить всю генеральную совокупность. Число объектов генеральной совокупности называется объемом генеральной совокупности (обозначение: N), аналогично, число объектов выборки – объем выборки (обозначение: n).
Объем выборки зависит от ряда факторов:
· от цели и задач исследования,
· от степени однородности генеральной совокупности,
· от величины доверительной вероятности,
· от точности результатов (величины допускаемой ошибки репрезентативности).
Модель вероятностной (случайной) выборки связана с понятием вероятности, широко используемым во многих науках. Условие равновероятности должно гарантировать для каждого элемента генеральной совокупности одинаковую возможность попасть в выборку.
Существуют различные способы отбора объектов в выборку:
· метод собственно-случайного отбора (объекты генеральной совокупности извлекаются случайным образом по одному);
· метод механической выборки (например, каждый десятый элемент генеральной совокупности включается в выборку);
· метод серийной выборки. Суть этого метода заключается в расчленении генеральной совокупности на однородные части (серии) по заданному признаку. После этого отбор респондентов осуществляется в каждой серии по заданному признаку;
· метод гнездовой (групповой) выборки. «Гнездо» представляет собой определенную группу каких-либо объектов, состоящих из ряда элементов. В качестве единиц исследования используют не отдельные объекты, а группы.
Определение объема и вида выборки – недостаточное условие правомерности распространения выводов исследования на всю генеральную совокупность. Из всего многообразия возможных выборочных совокупностей необходимо отобрать одну, наиболее точную. Способность выборки отражать, моделировать значимые свойства генеральной совокупности – репрезентативность выборки.
Отклонение результатов выборочного исследования от существенных характеристик генеральной совокупности называется ошибкой репрезентативности.
Ошибки репрезентативности могут быть случайными и систематическими. Случайные ошибки репрезентативности носят вероятностный характер и при повторном измерении изменяются по вероятностным законам. Систематическими ошибками репрезентативности называют ошибки смещения, нарушающие точность выборочной совокупности. Систематические ошибки возникают при просчетах на стадии проектирования выборки, при отсутствии информации об объекте, при неправильном выборочном отборе. Систематические ошибки репрезентативности могут быть также непреднамеренными (например, просчет на стадии проектирования выборки) и преднамеренными (обусловленными идеологическими, экономическими и т.д. факторами).
Пусть изучается некоторый количественный признак объектов генеральной совокупности, его можно принять за случайную величину Х. После извлечения выборки становятся известными значения этого наблюдаемого признака (значения случайной величины): варианты. Пусть величина повторяется раз, повторяется раз, раз, …, , тогда частоты вариант, объем выборки.
Вся совокупность значений представляет собой первичный статистический материал, на первом этапе обработки его нужно упорядочить. Операция распределения значений случайной величины по неубыванию называется ранжированием, а полученный в результате ряд – вариационным рядом.
Кроме частот вариант , используют характеристику объектов выборки – относительную частоту (частость) , где .
Также на первом этапе построения модели выборки составляют статистический ряд – дискретный или непрерывный.
Дискретный статистический ряд – это последовательность пар , где различные варианты, соответствующие частоты, его удобно представить таблицей:
…
…
Графическим изображением дискретного статистического ряда является полигон частот.
Полигон частот – это ломаная на плоскости, вершины которой имеют координаты . Можно также построить полигон частостей (относительных частот), в этом случае координаты вершин ломаной будут . Приведем пример.
Пример 1. Составить дискретный статистический ряд для выборки, приведенной в таблице. Построить полигон относительных частот.
Построим дискретный статистический ряд:
Проверка: , 8 − число различных вариант.
Используя третью строку таблицы, построим полигон относительных частот.
ni/n
5/30 o
4/30 o o o o
3/30 o o o
2/30
1/30
xi
12 13 14 15 16 17 18 19
Одним из средств описания дискретного статистического ряда является эмпирическая (статистическая) функция распределения , являющаяся аналогом функции распределения вероятностей дискретной случайной величины .
Эмпирической функцией распределения называется функция , определяющая для каждого значения x частость события : . Для вычисления значения эмпирической функции распределения удобно записать ее в виде , где число наблюдений, меньших х, n – объем выборки.
Дискретный статистический ряд удобно строить в том случае, если число вариант невелико или в выборке достаточно часто варианты повторяются. Если же объем выборки велик или признак является непрерывным (может принять любое значение в некотором интервале), строят интервальный статистический ряд.
Интервальный статистический ряд – это соответствие между числовым промежутком (частичный промежуток): и суммой частот вариант , попавших на этот частичный промежуток.
Интервальный статистический ряд удобно представить таблицей, в первой строке которой записаны частичные промежутки , а во второй – суммы частот вариант .
Величину называют длиной частичного промежутка, для ее вычисления можно применять формулу:
, где (формула Стерджеса),
размах выборки.
Значением левой границы первого частичного промежутка обычно берут число , последний частичный промежуток содержит .
Графически интервальный статистический ряд представляют гистограммой частот. Гистограмма – это ступенчатая фигура, состоящая из прямоугольников. В основании каждого прямоугольника лежит частичный интервал, а высота прямоугольника определяется частотой ni, а чаще величиной (плотность частоты), При таком построении площадь каждого частичного прямоугольника равна частоте ni, а сумма всех площадей, то есть площадь ступенчатой фигуры, равна объему выборки n. Гистограмма частот является статистическим аналогом дифференциальной функции распределения вероятностей (плотности вероятности ) непрерывной случайной величины. При построении гистограммы относительных частот высота каждого из прямоугольников равна , а площадь всей гистограммы равна единице.
Замечание. Если соединить середины верхних оснований прямоугольников гистограммы частот (относительных частот) отрезками, то получим полигон частот (или полигон относительных частот) того же распределения.
Пример 2. Дан вариационный ряд для непрерывной случайной величины.
[-7; -5)
[-5; -3)
[-3; -1)
[-1; 1)
[1; 3)
[3; 5)
[5; 7)
ni
Построить гистограмму приведенных частот и соответствующую эмпирическую функцию распределения.
Длина каждого из прямоугольников гистограммы – длина частичного промежутка , высота – , h=2.
Длина единичного отрезка по вертикальной оси равна .
Эмпирическая функция распределения: (суммируются относительные частоты всех тех значений , величина которых меньше x).
Если результаты наблюдений представлены в виде интервального статистического ряда, то в качестве аргумента функции принимают концы частичных интервалов и, пользуясь данным выше определением, вычисляют значения эмпирической функции. Причем, при ( начальное значение границы первого промежутка) , , а при ( конечное значение границы последнего промежутка), .
x
-7
-5
-3
-1
F*(x)
По вертикальной оси единичный отрезок равен .
Для выборочной модели можно определить ряд числовых параметров (характеристик), аналогичных числовым характеристикам дискретных случайных величин.
1. Выборочным средним называют среднее арифметическое всех значений наблюдаемого признака выборки: . Если задан интервальный статистический ряд, то в качестве берут середины частичных промежутков, соответствующие промежуткам суммы частот вариант. Выборочное среднее является основной характеристикой положения, показывает центр распределения выборки, позволяет охарактеризовать исследуемую совокупность одним числом, проследить тенденцию развития, сравнить различные совокупности (выборочное среднее является той точкой, сумма отклонений наблюдений от которой равна 0).
2. Выборочной дисперсией называют среднее арифметическое квадратов отклонений значений наблюдаемого признака выборки от выборочной средней:
.
Замечание. может быть подсчитана также по формуле: , где .
Выборочная дисперсия характеризует степень разброса (отклонения) какого-то показателя от его среднего значения. Дисперсия меняется от нуля до бесконечности. Значение дисперсии, равное нулю означает отсутствие изменчивости, т.е. значения наблюдаемого признака постоянны.
3. Среднее квадратическое отклонение ( , стандартное отклонение) вычисляется как корень квадратный из дисперсии: . Чем выше дисперсия или среднее квадратическое отклонение, тем сильнее разбросаны значения признака относительно среднего значения.
3.2. Статистические оценки параметров генеральной совокупности
При обработке наблюдений редко приходится прибегать к построению эмпирической функций распределения. Анализ условий испытаний позволяет предварительно определить тип неизвестной функций распределения – биноминальное, нормальное, равномерное и др. И окончательное уточнение неизвестной функции распределения сводится к определению некоторых числовых параметров генеральной совокупности. Эти параметры определяются приближенно по выборочной модели.
Допустим, что закон распределения генеральной совокупности случайной величины содержит неизвестный параметр . Требуется с помощью выборки найти оценку этого параметра. Очевидно, является случайной величиной. Для того чтобы эта оценка имела практическую ценность, необходимо, чтобы она обладала рядом свойств.
1. Свойство несмещённости.
Математическое ожидание оценки должно совпадать со значением оцениваемого параметра при любом объеме выборки. Это означает отсутствие систематической ошибки одного знака (в сторону занижения: , в сторону завышения: ).
2. Свойство состоятельности.
Оценка должна с увеличением объема выборки по вероятности стремиться к оцениваемому параметру, т.е. , .
Это означает, что с увеличением объема выборки практически достоверно, что . Свойство состоятельности обязательно для любого правила оценивания, иначе она не имеет практического смысла, т.к. увеличение объема исходной информации не будет приближать к истине.
3. Свойство эффективности.
Для того чтобы несмещенная оценка параметра была эффективной она должна иметь минимальную дисперсию среди всех несмещенных оценок этого параметра.