- Общая характеристика выборочного наблюдения.
- Ошибки выборки.
- Распространение выборочных результатов на генеральную совокупность.
- Определение необходимого объема выборки.
1. Общая характеристика выборочного наблюдения
Статистическое наблюдение можно организовать сплошное и несплошное. Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности, что связано с большими трудовыми и материальными затратами. Изучение не всех, а лишь некоторой части единиц совокупности, по которой можно судить о свойствах всей совокупности в целом, осуществляется несплошным наблюдением. Самым распространенным является выборочное наблюдение, при котором отбор подлежащих исследованию единиц осуществляется в случайном порядке, отобранная часть изучается, а результаты распространяются на всю исходную совокупность. Наблюдение организуется таким образом, что эта часть отобранных единиц в уменьшенном масштабе репрезентирует, т.е. представляет всю совокупность.
Вся совокупность единиц, из которой производится отбор, называется генеральной, ее обобщающие показатели – генеральными. Единицы, отобранные для непосредственного наблюдения, представляют собой выборочную совокупность, или просто выборку.
Основные характеристики параметров генеральной и выборочной совокупностей обозначаются следующими символами:
N – |
объем генеральной совокупности; |
n – |
объем выборки; |
– |
генеральная средняя, т.е. среднее значение признака в генеральной совокупности; |
– |
выборочная средняя; |
p – |
генеральная доля (доля единиц, обладающих изучаемым признаком, в общем числе единиц генеральной совокупности; |
w – |
выборочная доля; |
– |
генеральная дисперсия (дисперсия признака в генеральной совокупности); |
– |
выборочная дисперсия того же признака; |
– |
среднее квадратическое отклонение в генеральной совокупности; |
– |
среднее квадратическое отклонение в выборочной совокупности |
Преимущества выборочного наблюдения:
- экономия времени и средств (в результате сокращения объема работ);
- сведение к минимуму порчи или уничтожения исследуемых объектов (определение прочности пряжи при разрыве, испытания электрических лампочек на продолжительность горения, проверка консервов на доброкачественность);
- высокая точность результатов обследования благодаря сокращению ошибок, происходящих при регистрации.
Эти преимущества можно реализовать, если наблюдение организовано и проведено в соответствии с научными принципами теории выборочного метода, обеспечивающими репрезентативность полученной выборки. Такими принципами являются:
- обеспечение случайности отбора, т.е. каждая единица совокупности должна иметь равную возможность попасть в выборку;
- достаточное число выборки.
Количество отобранных в выборку единиц обычно определяется исходя из принятого процента выборки КВ:
Так при 5 %-ной выборке из партии деталей в 1000 ед. объем выборки составляет 50 ед, а при 10 %-ной выборку – 100 ед.
(При выборочном наблюдении обычно используют два основных вида обобщающих показателей: среднюю количественного признака и относительную величину альтернативного признака – долю (удельный вес).
Выборочная доля w, или частость, определяется отношением:
,
где m – число единиц, обладающих изучаемым признаком).
Основная задача выборочного наблюдения состоит в том, чтобы на основе характеристик выборочной совокупности (например, средней) получить достоверные суждения об аналогичных показателях (средней) в генеральной совокупности. При этом следует иметь в виду, что при статистических исследованиях возникают ошибки двух видов: регистрации и репрезентативности.
Ошибки регистрации могут иметь случайный и систематический (тенденциозный) характер. Случайные ошибки обычно уравновешивают друг друга, так как не имеют преимущественного направления в сторону увеличения или уменьшения значения изучаемого признака. Систематические ошибки направлены в одну сторону и возникают в связи с принятым способом отбора или нарушением его правил. Их можно избежать при правильной организации и проведении наблюдения.
Ошибки репрезентативности присущи только выборочному наблюдению и возникают в силу того, что выборочная совокупность не полностью воспроизводит генеральную. Они представляют собой расхождения между величинами выборочных и соответствующих генеральных показателей. Избежать ошибок репрезентативности нельзя, но, пользуясь методами теории вероятности, можно свести к минимальным значениям. Значение ошибки репрезентативности зависит от вида, метода и способа формирования выборочной совокупности.
По виду различают индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборку отбирают отдельные единицы генеральной совокупности, при групповом – качественно однородные группы или серии единиц. Комбинированный отбор – это сочетание 1-го и 2-го видов.
По методу отбора различают повторную и бесповторную выборку. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и участвует в дальнейшем отборе. Таким образом, объем генеральной совокупности не меняется. На практике такой метод отбора встречается редко.
При бесповторной выборке единица, попавшая в выборочную совокупность, в генеральную не возвращается, т.е. объем генеральной совокупности в процессе исследования сокращается.
Способ отбора определяет конкретный механизм или процедуру отбора единиц из генеральной совокупности. Наиболее распространены следующие выборки: собственно-случайная, механическая, типическая (или расслоенная, районированная), серийная, комбинированная.
По степени обхвата единиц совокупности различают большие и малые (n<30) выборки.
2. Ошибки выборки
Рассмотрим подробно перечисленные выше способы формирования выборочной совокупности и возникающие при этом ошибки репрезентативности.
Собственно-случайная выборка основывается на отборе единиц из генеральной совокупности наугад без каких-либо элементов системности. Технически собственно-случайный отбор проводят методом жеребьевки (например, розыгрыши лотерей) или по таблице случайных чисел.
Собственно-случайный отбор «в чистом виде» в практике выборочного наблюдения применяется редко, но он является исходным среди других видов отбора, в нем реализуются основные принципы выборочного наблюдения. Рассмотрим некоторые вопросы теории выборочного метода и формулы ошибок для простой случайной выборки.
Ошибка выборочного наблюдения – это разность между величиной параметра в генеральной совокупности, и его величиной, вычисленной по результатам выборочного наблюдения. Для средней количественного признака ошибка выборки определяется
Показатель называется предельной ошибкой выборки.
Выборочная средняя является случайной величиной, которая может принимать различные значения в зависимости от того, какие единицы попали в выборку. Следовательно, ошибки выборки также являются случайными величинами и могут принимать различные значения. Поэтому определяют среднюю из возможных ошибок – среднюю ошибку выборки , которая зависит от:
- объема выборки: чем больше численность, тем меньше величина средней ошибки;
- степени изменения изучаемого признака: чем меньше вариация признака, а, следовательно, и дисперсия, тем меньше средняя ошибка выборки.
При случайном повторном отборе средняя ошибка рассчитывается
.
Практически генеральная дисперсия точно не известна, но в теории вероятности доказано, что
.
Так как величина при достаточно больших n близка к 1, можно считать, что . Тогда средняя ошибка выборки может быть рассчитана:
.
Но в случаях малой выборки (при n<30) коэффициент необходимо учитывать, и среднюю ошибку малой выборки рассчитывать по формуле
.
При случайной бесповторной выборке приведенные формулы корректируются на величину . Тогда средняя ошибка бесповторной выборки:
и .
Т.к. всегда меньше , то множитель () всегда меньше 1. Это значит, что средняя ошибка при бесповторном отборе всегда меньше, чем при повторном.
Механическая выборка применяется, когда генеральная совокупность каким-либо способом упорядочена (например, списки избирателей по алфавиту, телефонные номера, номера домов, квартир). Отбор единиц осуществляется через определенный интервал, который равен обратному значению процента выборки. Так при 2% выборке отбирается каждая 50 единица =1/0,02 , при 5% каждая 1/0,05=20 единица генеральной совокупности.
Начало отсчета выбирается разными способами: случайным образом, из середины интервала, со сменой начала отсчета. Главное при этом – избежать систематической ошибки. Например, при 5% выборке, если первой единицей выбрана 13-я, то следующие 33, 53, 73 и т.д.
По точности механический отбор близок к собственно-случайной выборке. Поэтому для определения средней ошибки механической выборки используют формулы собственно-случайного отбора.
При типическом отборе обследуемая совокупность предварительно разбивается на однородные, однотипные группы. Например, при обследовании предприятий это могут быть отрасли, подотрасли, при изучении населения – районы, социальные или возрастные группы. Затем осуществляется независимый выбор из каждой группы механическим или собственно-случайным способом.
Типическая выборка дает более точные результаты по сравнению с другими способами. Типизация генеральной совокупности обеспечивает представительство в выборке каждой типологической группы, что позволяет исключить влияние межгрупповой дисперсии на среднюю ошибку выборки. Следовательно, при нахождении ошибки типической выборки согласно правилу сложения дисперсий () необходимо учесть лишь среднюю из групповых дисперсий. Тогда средняя ошибка выборки:
при повторном отборе
,
при бесповторном отборе
,
где – средняя из внутригрупповых дисперсий в выборке.
Серийный (или гнездовой) отбор применяется в случае, когда генеральная совокупность разбита на серии или группы до начала выборочного обследования. Этими сериями могут быть упаковки готовой продукции, студенческие группы, бригады. Серии для обследования выбираются механическим или собственно-случайным способом, а внутри серии производится сплошное обследование единиц. Поэтому средняя ошибка выборки зависит только от межгрупповой (межсерийной) дисперсии, которая вычисляется по формуле:
где r – число отобранных серий;
– средняя і-той серии.
Средняя ошибка серийной выборки рассчитывается:
при повторном отборе
,
при бесповторном отборе
,
где R – общее число серий.
Комбинированный отбор представляет собой сочетание рассмотренных способов отбора.
Средняя ошибка выборки при любом способе отбора зависит главным образом от абсолютной численности выборки и в меньшей степени – от процента выборки. Предположим, что проводится 225 наблюдений в первом случае из генеральной совокупности в 4500 единиц и во втором – в 225000 единиц. Дисперсии в обоих случаях равны 25. Тогда в первом случае при 5 %-ном отборе ошибка выборки составит:
Во втором случае при 0,1 %-ном отборе она будет равна:
Таким образом, при уменьшении процента выборки в 50 раз, ошибка выборки увеличилась незначительно, так как численность выборки не изменилась.
Предположим, что численность выборки увеличили до 625 наблюдений. В этом случае ошибка выборки равна:
Увеличение выборки в 2,8 раза при одной и той же численности генеральной совокупности снижает размеры ошибки выборки более чем в 1,6 раза.
3. Распространение выборочных результатов на генеральную совокупность
Конечной целью выборочного наблюдения является характеристика генеральной совокупности. Учитывая, что на основе выборочного обследования нельзя дать точное значение изучаемого параметра генеральной совокупности, определяют пределы, в которых он находится.
Возможные отклонения характеристик выборочной совокупности от соответствующих характеристик генеральной совокупности показывает средняя ошибка выборки. Если, например средняя продолжительность горения лампочки по выборке составила 300 час, а ошибка выборки =10 час, то среднюю продолжительность горения всей партии лампочек, из которой взята выборка, можно ожидать в пределах 30010 час, т.е. от 290 до 310 ч.
Однако то, что генеральная средняя не выйдет за данные пределы, можно утверждать лишь с определенной степенью вероятности Р.
Доказано, что утверждение о том, что генеральные характеристики не отклонятся от выборочных на величину большую, чем ошибка выборки, всегда имеет постоянную степень вероятности, равную 0,683. Значит, в 683 случаях из 1000 характеристика генеральной совокупности будет отличаться от характеристики выборки не больше, чем на величину , но в остальных 317 случаях из 1000 она может отличаться и в большей степени.
Можно повысить вероятность утверждения, расширив пределы отклонений до удвоенной ошибки . В примере это значит, что средняя продолжительность горения партии лампочек находится в пределах 30020, т.е. от 280 до 320 часов. Вероятность утверждения в этом случае равна 0,954, т.е. только в 46 случаях из 1000 отклонение выйдет за пределы . При утроенной вероятность повышается до 0,997. Значит с определенной степенью вероятности можно утверждать, что отклонения выборочных характеристик от генеральных не превысят некоторой величины, которая называется предельной ошибкой выборки:
,
где t – нормированное отклонение – коэффициент доверия, зависящий от вероятности, с которой гарантируется, что предельная ошибка не превысит t – кратную среднюю ошибку.
Значения доверительной вероятности при различных значениях коэффициента доверия представлены в специально составленных таблицах. Наиболее часто применяемые значения:
t |
1.0 |
1.96 |
2.0 |
2.58 |
3.0 |
Вероятность |
0.683 |
0.95 |
0.954 |
0.99 |
0.997 |
Предельная ошибка выборки позволяет определить доверительные интервалы характеристик генеральной совокупности. Для генеральной средней
или .
Это означает, что с заданной вероятностью можно утверждать, что значение генеральной средней следует ожидать в пределах от до .
4. Определение необходимого объема выборки
При проектировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки одним из наиболее сложных является вопрос о том, сколько единиц изучаемой совокупности необходимо обследовать, чтобы с определенной вероятностью обеспечить точность результатов наблюдения.
Необходимую численность выборки для оценки генеральной средней можно получить из формулы предельной ошибки выборки (предварительно возведя в квадрат обе части равенства). При собственно-случайном или механическом повторном отборе:
; ; .
Для определения необходимой численности выборки должны быть заданы предельная ее ошибка и вероятность того, что эта ошибка не превысит заданного предела. В соответствии с этой вероятностью по таблице находят коэффициент доверия t.
Наиболее сложно определить дисперсию изучаемого признака. Она может быть заимствована из проводимых ранее обследований данной или аналогичной совокупности, а если таковых нет, тогда для определения дисперсии организуют специальное выборочное наблюдение малого объема.
Если такие обследования что отсутствуют, можно воспользоваться соотношением:
.
Для других способов отбора формулы выводятся аналогично.
Таблица 1 – Формулы для нахождения необходимой численности выборки при разных способах отбора
Способ отбора |
Повторный отбор |
Бесповторный отбор |
Собственно-случайный механический |
|
|
Типический |
|
|
Серийный |
|
|