Объем выборки определяется. Выборка. Типы выборок. Расчет ошибки выборки

На практике решение вопроса об объеме выборки является компромиссным между предположением о точности результатов обследования и возможностями их практической реализации (т.е. исходя из затрат на проведение опроса).

На практике используется несколько подходов к определению объема выборки. Обратим внимание на самые простые из них. Первый из них называется произвольным подходом и основан он на применении «правила большого пальца».

Например, бездоказательно принимается, что для получения точных результатов выборка должна составлять 5 % от совокупности. Данный подход простой и доступный в исполнении, не позволяет получать точные результаты. Его достоинством является относительная дешевизна затрат. В соответствии со вторым подходом объем выборки может быть установлен исходя из заранее оговоренных условий. Заказчик маркетингового исследования, например, знает, что при изучении общественного мнения выборка обычно составляет 1000 – 1200 человек, поэтому он рекомендует исследователю придерживаться данной цифры.

Третий подход означает, что в некоторых случаях главным аргументом при определении объема выборки может быть стоимость проведения опроса. Хотя при этом ценность и достоверность получаемой информации не принимается в расчет.

В случае четвертого подхода объем выборки определяется на основе статистического анализа. Данный подход предполагает определение минимального объема выборки с учетом требований к надежности и достоверности получаемых результатов.

Пятый подход считается наиболее теоретически обоснованным и правильным подходом в определении объема выборки. Он основан на расчете доверительного интервала.

Доверительный интервал – это диапазон, крайние точки которого характеризуют процент определенных ответов на какой-то вопрос. Данное понятие тесто связано с понятием «среднее квадратичное отклонение получаемого признака в генеральной совокупности». Чем оно больше, тем шире должен быть доверительный интервал, чтобы включить в свой состав, например 9,5 % ответов.

Из свойств нормальной кривой распределения вытекает, что конечные точки доверительного интервала, равного к примеру 9,5 % определяются как произведение: 1,96 (нормированное отклонение) и среднего квадратичного отклонения.

Числа 1,96 и 2,58 (для 99 % доверительного интервала) обозначаются как z.

Существуют таблицы «Значение интеграла вероятности», которые дают возможность определить величины z для различных доверительных интервалов. Доверительный интервал равный 95% или 99% является стандартным при проведении маркетинговых исследований.

Например, проведено исследование числа визитов автовладельцев в сервисные мастерские за год. Доверительный интервал для среднего числа визитов был рассчитан равным 5 – 7 визитам при 99 % уровне доверительности. Это означает, что если появится возможность, провести независимо 100 раз выборочные исследования, то для 99 выборочных исследований среднее значение числа визитов попадут в диапазон от 5 до 7 визитов, Если сказать иначе, то 99 % автовладельцев попадут в доверительный интервал.

Допустим, было проведено исследование до 50 независимых выборок. Средние оценки для этих выборок образовали нормальную кривую распределения, которое называется выборочным распределением.

Средняя оценка для совокупности в целом равна средней оценке кривой распределения. Понятие «выборочное распределение» рассматривается также в качестве одного из базовых понятий теоретической концепции, лежащее в основе определения V выборки.

Естественно ни одна компания не в состоянии сформировать 10, 20, 50 независимых выборок. Обычно используется только одна выборка.

Математическая статистика позволяет получить некую информацию о выборочном распределении, владея точными данными о вариации единственной выборки.

Индикатором степени отличия оценки, истинной для совокупности в целом, которая ожидается для типичной выборки, является средне квадратическая ошибка . К примеру, исследуется мнение потребителей о новом товаре и заказчик данного исследования указал, что его устроит точность полученных результатов, равная плюс минус 5%.

Предположим, что 30 % членов выборки высказались за новый продукт. Это означает, что диапазон возможных оценок для всей совокупности составляет 25 – 35 %. Причем, чем больше объем выборки, тем меньше ошибка. Высокое значение вариации обусловливает высокое значение ошибки и наоборот.

Определим объем выборки на основе расчета доверительного интервала. Исходной информацией, необходимой для реализации данного подхода, является:

  • · величина вариации, которой, как считается, обладает совокупность;
  • · желаемая точность;
  • · уровень достоверности, которому должны удовлетворять результаты проводимого обследования.

Когда на заданный вопрос существует только два варианта ответов, выраженных в процентах (используется процентная мера), объем выборки определяется по следующей формуле:

где n – объем выборки;

z – нормированное отклонение, определяемое исходя из выбранного уровня доверительности (табл. 7);

р – найденная вариация для выборки;

q = (100 – p);

е – допустимая ошибка.

Таблица 7

Значение нормированного отклонения оценки z от среднего значения

в зависимости от доверительной вероятности (а) полученного результата

Например, предприятием, выпускающим покрышки, проводится опрос автолюбителей, использующих радиальные покрышки.

Поэтому на вопрос: «Используете ли Вы радиальные покрышки?» возможны только 2 ответа: «Да» или «Нет». Если предположить, что совокупность автолюбителей обладает низким показателем вариации, то это означает, что почти каждый опрошенный использует радиальные покрышки. В данном случае может быть сформирована выборка достаточно малых размеров. В формуле (1) произведение pg выражает вариацию, свойственную совокупности. Например, пусть 90 % единиц совокупности используют радиальные покрышки. Это означает, что pg = 900. Если принять, что показатель вариации выше (р = 70 %), то pg = 2100. Наибольшая вариация достигается в случае, когда одна половина совокупности (50 %) использует радиальные покрышки, а другие не используют. В этом случае произведение достигает значения равного 2500.

При проведении опроса важно указывать точность полученных оценок. Например, было установлено, что 44 % респондентов используют радиальные покрышки. Результаты измерения необходимо представить в виде: процент автолюбителей, использующих радиальные покрышки, составляет 44 плюс – минус е %. Величина допустимой ошибки заранее совместно определяется заказчиком исследования и исполнителем.

Уровень достоверности при проведении маркетинговых исследований обычно оценивается с учетом двух его значений: 95% или 99%. Первому значению соответствует значение z = 1,96; второму – z = 2,58. Если выбирается уровень доверительности равный 99 %, то это говорит о следующем: мы уверены на 99 % (иными словами доверительная вероятность равна 0,99) в том, что процент членов совокупности, попавший в диапазон плюс – минус е %, равен проценту членов выборки, попавших в тот же диапазон ошибки. Принимая вариацию равной 50 %, точность равной 10 % при 95 %-м уровне доверительности рассчитаем размер выборки:

n = 1,962 (50 х 50) / 102 = 96.

При уровне доверительности равном 99 %, и е = ±3 %, n = 1067.

При определении показателя вариации для конкретной совокупности целесообразно проводить предварительно качественный анализ исследуемой совокупности и установить схожесть единиц совокупности в демографическом, социальном и других отношениях, представляющих интерес для исследователя. Возможно определение объема выборки на основе использования средних значений, а не процентных величин. Предположим, что выбран уровень достоверности равный 95 % (z = 1.96,), среднеквадратическое отклонение (S) рассчитано и равно 100, и желаемая точность (погрешность) составляет ±10. Тогда объем выборки составит

Реально на практике, если выборка формируется заново и схожие опросы не проводились, S неизвестно.

В этом случае целесообразно задавать погрешность е в долях от среднеквадратического отклонения. Расчетная формула преобразуется и приобретает следующий вид:

Мы в основном говорили о совокупности очень больших размеров, характерных для рынков потребительских товаров. Но в отдельных случаях совокупности не являются столь большим, и например на рынках отдельных видов продукции производственного назначения.

Обычно, если выборка составляет менее 5 % совокупности, то совокупность считается большой, и расчеты проводятся по вышеприведенным правилам.

Если же V выборки превышает 5 % совокупности, то последняя считается малой, и в вышеприведенные формулы вводится поправочный коэффициент. Объем выборки в данном случае определяется следующим образом:

где n1 – объем выборки для малой совокупности,

n – объем выборки (или для процентных мер или для средних), рассчитанный по приведенным выше формулам,

N – объем генеральной совокупности.

Например, изучается мнение членов совокупности, состоящей из 1000 компаний, относительно строительства химического комбината в границах города Томска. Вследствие отсутствия информации о вариации принимается наихудший случай: 50:50. Исследователь вынес решение использовать уровень доверительности равный 95 %. Заказчик исследования указал, что его устроит точность результатов плюс минус 5 %. В этом случае используется следующая формула для процентной меры:

Данный подход к формированию V выборки с определенными оговорками может быть использован и при расчете численности панели и экспертной группы.

Приведенные формулы расчета выборки основаны на предположении, что все правила формирования выборки были соблюдены, и единственной ошибкой является ошибка, обусловленная ее объемом.

Глава из книги "Маркетинговые исследования"

  • Психология: личность и бизнес

В процессе решения задач легко убедиться, что довери­тельный интервал оценки средней и оценки доли зависит от объема выборки. Чем больше выборка, тем уже будет ин­тервал, тем точнее оценка генеральных статистик. В самом деле, во всех формулах расчета ошибки выборки объем выборки стоит в знаменателе, значит, между объемом выбор­ки и ошибкой существует обратная связь. Самая большая выборка - это вся генеральная совокупность, и тогда оценка вообще будет точечной. При этом, конечно же, не будет соблюдаться экономичность исследования, которая и явля­ется целью выборочного метода. Поэтому следует найти такой оптимальный размер выборки, который будет удов­летворять всем требованиям.

Определение 13.8. Минимальный объем выборки, при котором ее можно назвать репрезентативной называется оптимальным объемом.

Объем выборки не должен быть меньше оптимального объема. Для различных способов отбора существуют свои формулы предельной ошибки Δ = t · μ и формулы средних ошибок выборки, определяются формулы необходимой чис­ленности выборки.

Так, для определения доверительного интервала оценки средней в генеральной совокупности минимальный объем ре­презентативной выборки рассчитывается по формулам:

При повторном отборе:

(13.14)

При бесповторном отборе:

(13.15)

где σ 2 - выборочная дисперсия значений признака,

п - объем выборки;

N

t

Минимальный объем репрезентативной выборки для оцен­ки генеральной доли рассчитывается по формулам:

При повторном отборе:

(13.16)

При бесповторном отборе:

(13.17)

где ω ·(1 - ω) - выборочная дисперсия доли значений признака;

п - объем выборки;

N - объем генеральной совокупности;

ω - доля обследованной совокупности;

t - аргумент функции Лапласа, зависящий от надежно­сти интервальной оценки средней,

Δ - предельная ошибка выборки.



При расчете объема выборки надо учитывать, что опти­мальное количество элементов в выборке - целое число, поэтому оно будет определяться с округлением до наиболь­шего целого. Например, если п, вычисленный по формуле, равен 58,013, то это число определяет минимальный объем репрезентативной выборки, поэтому округлять надо до большего целого, до 59.


Вопросы для самоконтроля

1. Поясните сущность выборочного метода. Какие теоре­мы теории вероятностей служат обоснованием выбо­рочного метода?

2. Определите характеристики выборки, которые называ­ются выборочными статистиками. Как они рассчиты­ваются?

3. С какой целью используются выборочные данные?

4. От чего зависит качество точечных оценок параметров генеральной совокупности?

5. Какие величины являются точечными оценками для ге­неральной средней, генеральной доли?

6. Какие точечные оценки используются для генеральной дисперсии? Какие условия должны выполняться, чтобы статистики служили хорошими оценками параметров генеральной совокупности?

7. Как определяется интервальная оценка генеральной средней?

8. Что представляет собой доверительный интервал для оценки генеральной доли? Поясните сущность парамет­ров, определяющих его размер.

9. Какие величины определяют размер предельной ошиб­ки выборки?

10. Как заданная вероятность влияет на величину довери­тельного интервала для оценки генеральных параметров?

11. По каким формулам определяется средняя ошибка вы­борки в зависимости от способа отбора выборки?

12. От чего зависит ошибка выборки для оценки средней в генеральной совокупности?

13. Какие формулы используются для оценки генеральной доли в повторной и бесповторной выборке?

14. От чего зависит оптимальный объем представительной выборки?

15. Какая зависимость существует между размером дове­рительного интервала оценки генеральных параметров и объемом выборки?

16. Каким требованиям должен удовлетворять оптимальный размер выборки при оценке генеральных параметров?

17. По каким формулам рассчитывается минимальный объем репрезентативной выборки для оценки генераль­ной средней и генеральной доли?

Статистика знает все. И Ильф и Е. Петров, «12 Стульев»

Представьте себе, что вы строите крупный торговый центр и желаете оценить автомобильный поток въезда на территорию парковки. Нет, давайте другой пример… они все равно этого никогда не будут делать. Вам необходимо оценить вкусовые предпочтения посетителей вашего портала, для чего необходимо провести среди них опрос. Как увязать количество данных и возможную погрешность? Ничего сложного - чем больше ваша выборка, тем меньше погрешность. Однако и здесь есть нюансы.

Теоретический минимум

Не будет лишним освежить память, эти термины нам пригодятся далее.

  • Популяция – Множество всех объектов, среди которых проводится исследования.
  • Выборка – Подмножество, часть объектов из всей популяции, которая непосредственно участвует в исследовании.
  • Ошибка первого рода - (α) Вероятность отвергнуть нулевую гипотезу, в то время как она верна.
  • Ошибка второго рода - (β) Вероятность не отвергнуть нулевую гипотезу, в то время как она ложна.
  • 1 - β - Статистическая мощность критерия.
  • μ 0 и μ 1 - Средние значения при нулевой и альтернативной гипотезе.


Уже в самих определениях ошибки первого и второго рода имеется простор для дебатов и толкований. Как с ними определиться и какую выбрать в качестве нулевой? Если вы исследуете уровень загрязнения почвы или вод, то как сформулируете нулевую гипотезу: загрязнение присутствует, или нет загрязнения? А ведь от этого зависит объем выборки из общей популяции объектов.



Исходная популяция , также как и выборка может иметь любое распределение, однако среднее значение имеет нормальное или гауссово распределение благодаря Центральной Предельной Теореме .


Относительно параметров распределения и среднего значения в частности возможно несколько типов умозаключений. Первое из них называется доверительным интервалом . Он указывает на интервал возможных значений параметра, с указанным коэффициентом доверия . Так например 100(1-α)% доверительный интервал для μ будет таким (Ур. 1).




Второе из умозаключений - проверка гипотезы . Оно может быть примерно таким.

  • H 0: μ = h
  • H 1: μ > h
  • H 2: μ < h

С доверительным интервалом 100(1-α) для μ можно сделать выбор в пользу H 1 и H 2:

  • Если нижний предел доверительного интервала 100(1-α) < h , то тогда отвергаем H 0 в пользу H 2 .
  • Если верхний предел доверительного интервала 100(1-α) > h, то тогда отвергаем H 0 в пользу H 1 .
  • Если доверительного интервала 100(1-α) включает в себя h, то тогда мы не может отвергнуть H 0 и такой результат считается неопределенным .

Если нам нужно проверить значение μ для одной выборки из общей совокупности, то критерий обретет вид.



Доверительный интервал, погрешность и размер выборки

Возьмем самое первое уравнение и выразим оттуда ширину доверительного интервала (Ур. 2).



В некоторых случаях мы можем заменить t-статистику Стьюдента на z стандартного нормального распределения. Еще одним упрощением заменим половину от w на погрешность измерения E. Тогда наше уравнения примет вид (Ур. 3).



Как видим погрешность действительно уменьшается вместе с ростом количества входных данных . Откуда легко вывести искомое (Ур. 4).


Практика - считаем с R

Проверим гипотезу о том, что среднее значение данной выборки количества насекомых в ловушке равно 1.

  • H 0: μ = 1
  • H 1: μ > 1
Насекомые 0 1 2 3 4 5 6
Ловушки 10 9 5 5 1 2 1

> x <- read.table("/tmp/tcounts.txt") > y = unlist(x, use.names="false") > mean(z);sd(z) 1.636364 1.654883

Обратите внимание, что среднее и стандартное отклонение практически равны, что естественно для распределения Пуассона. Доверительный интервал 95% для t-статистики Стьюдента и df=32 .


> qt(.975, 32) 2.036933

и наконец получаем критический интервал для среднего значения: 1.05 - 2.22 .


> μ=mean(z) > st = qt(.975, 32) > μ + st * sd(z)/sqrt(33) 2.223159 > μ - st * sd(z)/sqrt(33) 1.049568

В итоге, следует отбраковать H 0 и принять H 1 так как с вероятностью 95%, μ > 1.


В том же самом примере, если принять, что нам известно действительное стандартное отклонение - σ , а не ее оценка полученная с помощью случайной выборки, можно рассчитать необходимое n для данной погрешности. Посчитаем для E=0.5 .


> za2 = qnorm(.975) > (za2*sd(z)/.5)^2 42.08144

Поправка на ветер

На самом деле нет никаких причин, полагать, что нам будет известна σ (дисперсия), в то время как μ (среднее) нам еще только предстоит оценить. Из-за этого уравнение 4 имеет мало практической пользы, кроме особо рафинированных примеров из области комбинаторики, а реалистичное уравнение для n несколько сложнее при неизвестной σ (Ур. 5).



Обратите внимание, что σ в последнем уравнении не с шапкой (^), а тильдой (~). Это следствие того, что в самом начале у нас нет даже оценочного стандартного отклонения случайной выборки - , и вместо нее мы используем запланированное - . Откуда же мы берем последнее? Можно сказать, что с потолка: экспертная оценка, грубые прикидки, прошлый опыт и т. д.


А что на счет второго слагаемого правой стороны 5-го уравнения, откуда оно взялось? Так как , необходима поправка Гюнтера .


Помимо уравнений 4 и 5 есть еще несколько приблизительно-оценочных формул, но это уже заслуживает отдельного поста.

Статистическая совокупность - множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.

Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом .

Единица совокупности — каждая конкретная единица статистической совокупности.

Одна и таже статистическая совокупность может быть однородна по одному признаку и неоднородна по другому.

Качественная однородность — сходство всех единиц совокупности по какому-либо признаку и несходство по всем остальным.

В статистической совокупности отличия одной единицы совокупности от другой чаще имеют количественную природу. Количественные изменения значений признака разных единиц совокупности называются вариацией.

Вариация признака — количественное изменение признака (для количественного признака) при переходе от одной единицы совокупности к другой.

Признак - это свойство, характерная черта или иная особенность единиц, объектов и явлений, которая может быть наблюдаема или измерена. Признаки делятся на количественные и качественные. Многообразие и изменчивость величины признака у отдельных единиц совокупности называется вариацией .

Атрибутивные (качественные) признаки не поддаются числовому выражению (состав населения по полу). Количественные признаки имеют числовое выражение (состав населения по возрасту).

Показатель — это обобщающая количественно качестванная характеристика какого-либо свойства единиц или совокупности в цельм в конкретных условиях времени и места.

Система показателей — это совокупность показателей всесторонне отражающих изучаемое явление.

Например, изучается зарплата:
  • Признак — оплата труда
  • Статистическая совокупность — все работники
  • Единица совокупности — каждый работник
  • Качественная однородность — начисленная зарплата
  • Вариация признака — ряд цифр

Генеральная совокупность и выборка из нее

Основу составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой , а гипотетически существующая (домысливаемая) — генеральной совокупностью . Генеральная совокупность может быть конечной (число наблюдений N = const ) или бесконечной (N = ∞ ), а выборка из генеральной совокупности — это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки . Если объем выборки достаточно велик (n → ∞ ) выборка считается большой , в противном случае она называется выборкой ограниченного объема . Выборка считается малой , если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30 ), а при измерении одновременно нескольких (k ) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10) . Выборка образует вариационный ряд , если ее члены являются порядковыми статистиками , т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами .

Пример . Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.

Основные способы организации выборки

Достоверность статистических выводов и содержательная интерпретация результатов зависит от репрезентативности выборки, т.е. полноты и адекватности представления свойств генеральной совокупности, по отношению к которой эту выборку можно считать представительной. Изучение статистических свойств совокупности можно организовать двумя способами: с помощью сплошного и несплошного . Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности , а несплошное (выборочное) наблюдение — только его части.

Существуют пять основных способов организации выборочного наблюдения:

1. простой случайный отбор , при котором объектов случайно извлекаются из генеральной совокупности объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными ;

2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими ;

3. стратифицированный отбор заключается в том, что генеральная совокупность объема подразделяется на подсовокупности или слои (страты) объема так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными );

4. методы серийного отбора используются для формирования серийных или гнездовых выборок . Они удобны в том случае, если необходимо обследовать сразу "блок" или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);

5. комбинированный (ступенчатый) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной .

Виды отбора

По виду различаются индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе — качественно однородные группы (серии) единиц, а комбинированный отбор предполагает сочетание первого и второго видов.

По методу отбора различают повторную и бесповторную выборку.

Бесповторным называется отбор, при котором попавшая в выборку единица не возвращается в исходную совокупность и в дальнейшем выборе не участвует; при этом численность единиц генеральной совокупности N сокращается в процессе отбора. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и таким образом сохраняет равную возможность наряду с другими единицами быть использованной в дальнейшей процедуре отбора; при этом численность единиц генеральной совокупности N остается неизменной (метод в социально-экономических исследованиях применяется редко). Однако, при большом N (N → ∞) формулы для бесповторного отбора приближаются к аналогичным для повторного отбора и практически чаще используются последние (N = const ).

Основные характеристики параметров генеральной и выборочной совокупности

В основе статистических выводов проведенного исследования лежит распределение случайной величины , наблюдаемые же значения (х 1 , х 2 , … , х n) называются реализациями случайной величины Х (n — объем выборки). Распределение случайной величины в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением. Некоторые теоретические распределения заданы аналитически, т.е. их параметры определяют значение функции распределения в каждой точке пространства возможных значений случайной величины . Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение (или гипотеза ) о виде распределения может быть как статистически верным, так и ошибочным. Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное. Важнейшими параметрами распределений являются математическое ожидание и дисперсия .

По своей природе распределения бывают непрерывными и дискретными . Наиболее известным непрерывным распределением является нормальное . Выборочными аналогами параметров идля него являются: среднее значение и эмпирическая дисперсия . Среди дискретных в социально-экономических исследованиях наиболее часто применяется альтернативное (дихотомическое) распределение. Параметр математического ожидания этого распределения выражает относительную величину (или долю ) единиц совокупности, которые обладают изучаемым признаком (она обозначена буквой ); доля совокупности, не обладающая этим признаком, обозначается буквой q (q = 1 — p) . Дисперсия же альтернативного распределения также имеет эмпирический аналог .

В зависимости от вида распределения и от способа отбора единиц совокупности по-разному вычисляются характеристики параметров распределения. Основные из них для теоретического и эмпирического распределений приведены в табл. 9.1.

Долей выборки k n называется отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:

k n = n/N .

Выборочная доля w — это отношение единиц, обладающих изучаемым признаком x к объему выборки n :

w = n n /n .

Пример. В партии товара, содержащей 1000 ед., при 5% выборке доля выборки k n в абсолютной величине составляет 50 ед. (n = N*0,05); если же в этой выборке обнаружено 2 бракованных изделия, то выборочная доля брака w составит 0,04 (w = 2/50 = 0,04 или 4%).

Так как выборочная совокупность отлична от генеральной, то возникают ошибки выборки .

Таблица 9.1 Основные параметры генеральной и выборочной совокупностей

Ошибки выборки

При любом (сплошном и выборочном) могут встретиться ошибки двух видов: регистрации и репрезентативности. Ошибки регистрации могут иметь случайный и систематический характер. Случайные ошибки складываются из множества различных неконтролируемых причин, носят непреднамеренный характер и обычно по совокупности уравновешивают друг друга (например, изменения показателей прибора при температурных колебаниях в помещении).

Систематические ошибки тенденциозны, так как нарушают правила отбора объектов в выборку (например, отклонения в измерениях при изменении настройки измерительного прибора).

Пример. Для оценки социального положения населения в городе предусмотрено обследовать 25% семей. Если при этом выбор каждой четвертой квартиры основан на ее номере, то существует опасность отобрать все квартиры только одного типа (например, однокомнатные), что обеспечит систематическую ошибку и исказит результаты; выбор же номера квартиры по жребию более предпочтителен, так как ошибка будет случайной.

Ошибки репрезентативности присущи только выборочному наблюдению, их невозможно избежать и они возникают в результате того, что выборочная совокупность не полностью воспроизводит генеральную. Значения показателей, получаемых по выборке, отличаются от показателей этих же величин в генеральной совокупности (или получаемых при сплошном наблюдении).

Ошибка выборочного наблюдения есть разность между значением параметра в генеральной совокупности и ее выборочным значением. Для среднего значения количественного признака она равна: , а для доли (альтернативного признака) — .

Ошибки выборки свойственны только выборочным наблюдениям. Чем больше эти ошибки, тем больше эмпирическое распределение отличается от теоретического. Параметры эмпирического распределения и являются случайными величинами, следовательно, ошибки выборки также являются случайными величинами, могут принимать для разных выборок разные значения и поэтому принято вычислять среднюю ошибку .

Средняя ошибка выборки есть величина , выражающая среднее квадратическое отклонение выборочной средней от математического ожидания. Эта величина при соблюдении принципа случайного отбора зависит прежде всего от объема выборки и от степени варьирования признака: чем больше и чем меньше вариация признака (следовательно, и значение ), тем меньше величина средней ошибки выборки . Соотношение между дисперсиями генеральной и выборочной совокупностей выражается формулой:

т.е. при достаточно больших можно считать, что . Средняя ошибка выборки показывает возможные отклонения параметра выборочной совокупности от параметра генеральной. В табл. 9.2 приведены выражения для вычисления средней ошибки выборки при разных методах организации наблюдения.

Таблица 9.2 Средняя ошибка (m) выборочных средней и доли для разных видов выборки

Где - средняя из внутригрупповых выборочных дисперсий для непрерывного признака;

Средняя из внутригрупповых дисперсий доли;

— число отобранных серий, — общее число серий;

,

где — средняя -й серии;

— общая средняя по всей выборочной совокупности для непрерывного признака;

,

где — доля признака в -й серии;

— общая доля признака по всей выборочной совокупности.

Однако о величине средней ошибки можно судить лишь с определенной, вероятностью Р (Р ≤ 1). Ляпунов А.М. доказал, что распределение выборочных средних , a следовательно, и их отклонений от генеральной средней, при достаточно большом числе приближенно подчиняется нормальному закону распределения при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.

Математически это утверждение для средней выражается в виде:

а для доли выражение (1) примет вид:

где - есть предельная ошибка выборки , которая кратна величине средней ошибки выборки , а коэффициент кратности — есть критерий Стьюдента ("коэффициент доверия"), предложенный У.С. Госсетом (псевдоним "Student"); значения для разного объема выборки хранятся в специальной таблице.

Значения функции Ф(t) при некоторых значениях t равны:

Следовательно, выражение (3) может быть прочитано так: с вероятностью Р = 0,683 (68,3%) можно утверждать, что разность между выборочной и генеральной средней не превысит одной величины средней ошибки m (t = 1) , с вероятностью Р = 0,954 (95,4%) — что она не превысит величины двух средних ошибок m (t = 2) , с вероятностью Р = 0,997 (99,7%) — не превысит трех значений m (t = 3) . Таким образом, вероятность того, что эта разность превысит трехкратную величину средней ошибки определяет уровень ошибки и составляет не более 0,3% .

В табл. 9.3 приведены формулы для вычисления предельной ошибки выборки.

Таблица 9.3 Предельная ошибка (D) выборки для средней и доли (р) для разных видов выборочного наблюдения

Распространение выборочных результатов на генеральную совокупность

Конечной целью выборочного наблюдения является характеристика генеральной совокупности. При малых объемах выборки эмпирические оценки параметров ( и ) могут существенно отклоняться от их истинных значений ( и ). Поэтому возникает необходимость установить границы, в пределах которых для выборочных значений параметров ( и ) лежат истинные значения ( и ).

Доверительным интервалом какого-либо параметра θгенеральной совокупности называется случайная область значений этого параметра, которая с вероятностью близкой к 1 (надежностью ) содержит истинное значение этого параметра.

Предельная ошибка выборки Δ позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы , которые равны:

Нижняя граница доверительного интервала получена путем вычитания предельной ошибки из выборочного среднего (доли), а верхняя — путем ее добавления.

Доверительный интервал для средней использует предельную ошибку выборки и для заданного уровня достоверности определяется по формуле:

Это означает, что с заданной вероятностью Р , которая называется доверительным уровнем и однозначно определяется значением t , можно утверждать, что истинное значение средней лежит в пределах от ,а истинное значение доли — в пределах от

При расчете доверительного интервала для трех стандартных доверительных уровней Р = 95%, Р = 99% и Р = 99,9% значение выбирается по . Приложения в зависимости от числа степеней свободы . Если объем выборки достаточно велик, то соответствующие этим вероятностям значения t равны: 1,96, 2,58 и 3,29 . Таким образом, предельная ошибка выборки позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы:

Распространение результатов выборочного наблюдения на генеральную совокупность в социально-экономических исследованиях имеет свои особенности, так как требует полноты представительности всех ее типов и групп. Основой для возможности такого распространения является расчет относительной ошибки :

где Δ % - относительная предельная ошибка выборки; , .

Существуют два основных метода распространения выборочного наблюдения на генеральную совокупность: прямой пересчет и способ коэффициентов .

Сущность прямого пересчета заключается в умножении выборочного среднего значения!!\overline{x} на объем генеральной совокупности .

Пример . Пусть среднее число детей ясельного возраста в городе оценено выборочным методом и составило человека. Если в городе 1000 молодых семей, то число необходимых мест в муниципальных детских яслях получают умножением этой средней на численность генеральной совокупности N = 1000, т.е. составит 1200 мест.

Способ коэффициентов целесообразно использовать в случае, когда выборочное наблюдение проводится с целью уточнения данных сплошного наблюдения.

При этом используют формулу:

где все переменные — это численность совокупности:

Необходимый объем выборки

Таблица 9.4 Необходимый объем (n) выборки для разных видов организации выборочного наблюдения

При планировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки необходимо правильно оценить требуемый объем выборки . Этот объем может быть определен на основе допустимой ошибки при выборочном наблюдении исходя из заданной вероятности , гарантирующей допустимую величину уровня ошибки (с учетом способа организации наблюдения). Формулы для определения необходимой численности выборки n легко получить непосредственно из формул предельной ошибки выборки. Так, из выражения для предельной ошибки:

непосредственно определяется объем выборки n :

Эта формула показывает, что с уменьшением предельной ошибки выборки Δ существенно увеличивается требуемый объем выборки , который пропорционален дисперсии и квадрату критерия Стьюдента .

Для конкретного способа организации наблюдения требуемый объем выборки вычисляется согласно формулам, приведенным в табл. 9.4.

Практические примеры расчета

Пример 1. Вычисление среднего значения и доверительного интервала для непрерывного количественного признака.

Для оценки скорости расчета с кредиторами в банке проведена случайная выборка 10 платежных документов. Их значения оказались равными (в днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Необходимо с вероятностью Р = 0,954 определить предельную ошибку Δ выборочной средней и доверительные пределы среднего времени расчетов.

Решение. Среднее значение вычисляется по формуле из табл. 9.1 для выборочной совокупности

Дисперсия вычисляется по формуле из табл. 9.1.

Средняя квадратическая погрешность дня.

Ошибка средней вычисляется по формуле:

т.е. среднее значение равно x ± m = 12,0 ± 2,3 дней .

Достоверность среднего составила

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, и для Р = 0,954 уровня достоверности.

Таким образом, среднее значение равно `x ± D = `x ± 2m = 12,0 ± 4,6, т.е. его истинное значение лежит в пределах от 7,4 до16,6 дней.

Использование таблицы Стьюдента. Приложения позволяет заключить, что для n = 10 — 1 = 9 степеней свободы полученное значение достоверно с уровнем значимости a £ 0,001, т.е. полученное значение среднего достоверно отличается от 0.

Пример 2. Оценка вероятности (генеральной доли) р.

При механическом выборочном способе обследования социального положения 1000 семей выявлено, что доля малообеспеченных семей составила w = 0,3 (30%) (выборка была 2% , т.е. n/N = 0,02 ). Необходимо с уровнем достоверности р = 0,997 определить показатель р малообеспеченных семей во всем регионе.

Решение. По представленным значениям функции Ф(t) найдем для заданного уровня достоверности Р = 0,997 значение t = 3 (см. формулу 3). Предельную ошибку доли w определим по формуле из табл. 9.3 для бесповторного отбора (механическая выборка всегда является бесповторной):

Предельная относительная ошибка выборки в % составит:

Вероятность (генеральная доля) малообеспеченных семей в регионе составит р=w±Δ w , а доверительные пределы р вычисляются исходя из двойного неравенства:

w — Δ w ≤ p ≤ w — Δ w , т.е. истинное значение р лежит в пределах:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Таким образом, с вероятностью 0,997 можно утверждать, что доля малообеспеченных семей среди всех семей региона составляет от 28,6% до 31,4%.

Пример 3. Вычисление среднего значения и доверительного интервала для дискретного признака, заданного интервальным рядом.

В табл. 9.5. задано распределение заявок на изготовление заказов по срокам их выполнения предприятием.

Таблица 9.5 Распределение наблюдений по срокам появления

Решение. Средний срок выполнения заявок вычисляется по формуле:

Средний срок составит:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 мес.

Тот же ответ получим, если используем данные о р i из предпоследней колонки табл. 9.5, используя формулу:

Заметим, что середина интервала для последней градации находится путем искусственного ее дополнения шириной интервала предыдущей градации равной 60 — 36 = 24 мес.

Дисперсия вычисляется по формуле

где х i - середина интервального ряда.

Следовательно!!\sigma = \frac {20^2 + 14^2 + 1 + 25^2 + 49^2}{4}, а средняя квадратическая погрешность .

Ошибка средней вычисляется по формуле мес., т.е. среднее значение равно!!\overline{x} ± m = 23,1 ± 13,4.

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, для 0,954 уровня достоверности:

Таким образом, среднее значение равно:

т.е. его истинное значение лежит в пределах от 0 до 50 мес.

Пример 4. Для определения скорости расчетов с кредиторами N = 500 предприятий корпорации в коммерческом банке необходимо провести выборочное исследование методом случайного бесповторного отбора. Определить необходимый объем выборки n, чтобы с вероятностью Р = 0,954 ошибка среднего значения выборки не превышала 3-х дней, если пробные оценки показали, что среднее квадратическое отклонение s составило 10 дней.

Решение . Для определения числа необходимых исследований n воспользуемся формулой для бесповторного отбора из табл. 9.4:

В ней значение t определяется из для уровня достоверности Р = 0,954. Оно равно 2. Среднее квадратическое значение s = 10, объем генеральной совокупности N = 500, а предельная ошибка среднего значения Δ x = 3. Подставляя эти значения в формулу, получим:

т.е. выборку достаточно составить из 41 предприятия, чтобы оценить требуемый параметр — скорость расчетов с кредиторами.

Перед непосредственным проведением выборочного наблюдения всегда решается вопрос, сколько единиц исследуемой совокупности необходимо отобрать для выборки. Формулы для определения ее численности выводят из формул предельных ошибок выборки в соответствии со следующими исходными положениями:

  • видом предлагаемой выборки;
  • способом отбора (повторный или бесповторный);
  • выбором оценивания параметра (среднего значения или доли).

Кроме того, необходимо заранее определиться со значением доверительной вероятности, которая устраивала бы потребителя информации, и с размером допустимой предельной ошибки выборки. Задать Д и I (соответствующих доверительной вероятности), как правило, не представляет особых трудностей, поскольку они связаны с природой изучаемой совокупности.

Однако надо помнить, что большая доверительная вероятность весьма увеличивает объем выборки. Аналогична ситуация с предельной ошибкой выборки: ее снижение вдвое увеличивает размер выборки вчетверо. Вопрос о том, какая точность удовлетворяет исследователя, становится принципиальным, если обследование еще одной единицы наблюдения приводит к большим финансовым и материальным затратам (при территориальной удаленности единиц наблюдения, конфиденциальности собираемых данных, сложности программы наблюдения и т.д.), и непринципиальным, если затраты на обследование одной единицы сравнительно небольшие.

Формулы для расчета необходимого объема выборки для разных способов отбора показаны в табл. 13.10.

При использовании приведенных в таблице формул рекомендуется получаемую численность выборки округлять в большую сторону для обеспечения некоторого «запаса» точности.

Кроме того, в статистической практике распространен вариант, когда величина предельной ошибки выборки задается в процентах (относительная предельная ошибка выборки). В этом случае абсолютное значение ошибки делят на среднее значение признака и умножают на 100%. Тогда для применения формул таблицы следует найти абсолютное значение предельной ошибки следующим образом:

Таблица 13.10

Формулы для нахождения объема выборочной совокупности

Способ отбора

Повторный отбор

Бесповторный отбор

При оценивании среднего значения

Собственно-случайный

Механический

Типический

Серийный с равными сериями

При оценивании доли

Собственно-случайный

Механический

Окончание

Способ отбора

Повторный отбор

Бесповторный отбор

Типический

Серийный с равными сериями

Если в качестве исходных параметров для определения объема выборки заданы относительная ошибка Д % и коэффициент вариации

изучаемого признака, исчисленный как F„=^100%, то формулу

собственно-случайной выборки при повторном отборе можно преобразовать следующим образом:

Реальную сложность для определения объема выборки представляет определение размера вариации признака - дисперсии. На практике эта величина чаще всего остается неизвестной до проведения обследования. Как поступить в каждом конкретном случае, решает сам исследователь.

Иногда дисперсию оценивают прямыми способами:

  • проводят плотные обследования до начала основного наблюдения с целью выяснения величины о 2 ;
  • принимают условно величину дисперсии из прошлых аналогичных обследований (чаще всего используемый на практике способ). Подобный подход оправдан, если генеральная совокупность в силу своей природы не подтверждена значительными динамичными процессами или их проявления не столь ярки.

Существует также ряд «косвенных» способов нахождения дисперсии изучаемого признака, представляющих собой определенные математические приемы, которые базируются на свойствах статистических совокупностей. Поскольку распределения большинства из них близки к нормальному закону, значение дисперсии приблизительно можно определить следующим образом.

Так как все значения варианта признака при нормальном законе распределения размещаются на За в одну и другую сторону от среднего, имеет место приблизительное равенство R « 6а, где R - размах вариации признака, определяемый как R = x max - x min .

Следовательно,

На практике для получения некоторого «запаса» выборочных единиц для обеспечения требуемой точности часто предпочитают пользоваться соотношением

Величины х тах и x min при наблюдении за социально-экономическими процессами обычно известны или определяются действующим законодательством. Например, среднесписочная численность работающих на малых предприятиях строго ограничена законодательно.

Для социально-экономических явлений, если некоторым образом (например, из данных прошлых обследований) известно значение среднего, для приближенной оценки среднего квадратичного отклонения используют соотношение

Дисперсия альтернативного признака зависит от доли единиц, которые обладают изучаемым признаком (свойством) w. Если эта доля неизвестна, берется максимально возможное значение дисперсии - 0,25, достигаемое при w = 0,5.

Из формул табл. 13.10 следует, что численность выборки прямо пропорциональна дисперсии изучаемого признака. Действительно, с увеличением колеблемости единиц, для того чтобы уловить вариацию, требуется все большее их количество для отбора и включения в выборку.

Итак, рассмотрено определение объема выборки при одном наблюдаемом признаке. Но как быть, если характерных признаков несколько и вариация этих признаков различна или некоторые их них альтернативные. Логично было бы выбрать тот признак, расчеты по которому приводят к наибольшему среди остальных объему выборки (этим признаком будет тот, по которому требуется получить наименьшую величину относительной ошибки выборки при одной и той же доверительной вероятности). Действительно, в этом случае определение генеральных параметров других признаков будет сопровождаться большей точностью, чем требуется, т.е. появится некоторый «запас» точности.

Надо также отметить, что на практике зачастую объем выборки корректируется в соответствии с имеющимися финансовыми и кадровыми ресурсами, тогда принимают во внимание необходимость достижения оптимального соотношения затрат и точности получаемых результатов. При трудностях с финансированием статистических наблюдений, особенно если снижение расходов происходит довольно значительно при допускаемых потерях в точности, подобный шаг более чем оправдан.

На определение объема выборки также оказывает влияние весьма распространенное при статических наблюдениях явление, связанное с неответами опрашиваемых единиц. В случае больших генеральных совокупностей, измеряемых сотнями и миллионами (например, совокупность населения страны), можно сделать определенную поправку на неответы, увеличив объем выборки. Однако при обработке результатов обследования и особенно при использовании на их основе конкретных рекомендаций следует помнить о произведенных при сборе данных допущениях.

Рассмотрим примеры задач на определение необходимой численности выборочной совокупности.

Пример 13. 7. Сколько объектов из совокупности 507 фирм надо проверить налоговой инспекции, чтобы с вероятностью 0,997 определить долю фирм с нарушениями в уплате налогов? По данным прошлого обследования величина среднего квадратичного отклонения составила 0,15; размер ошибок выборки должен быть не выше чем 0,15.

При повторном случайном отборе следует проверить

При бесповторном случайном отбое необходимо проверить

Как видим, использование бесповторного отбора приводит к обследованию гораздо меньшего числа объектов.

Пример 13.8. Администрация одного из субъектов РФ решила провести выборочное обследование 366 малых фирм, в процессе проведения которого предполагалось определить:

  • долю лиц с высшим образованием, работающих в малых фирмах (размер предельной ошибки не должен превышать 0,1);
  • долю работающих в малых фирмах женщин (размер предельной ошибки не должен превышать 0,12);
  • средний возраст работающих в малых фирмах (размер предельной ошибки не должен превышать два года).

Распределение малых фирм по отраслям экономики таково

Администрация города предполагает, что значение изучаемых признаков существенно варьируется в зависимости от отраслевой принадлежности фирмы, поэтому была выбрана типическая выборка, пропорциональная объему типических групп.

Определим, какова при этом должна быть ее численность и сколько единиц наблюдения следует извлечь из каждой типической группы при доверительной вероятности 0,954. Первые два признака - альтернативные, тогда оценкой неизвестной дисперсии является ее максимальное значение - 0,25.

Необходимый объем выборки при оценивании доли лиц с высшим образованием будет иметь следующее значение:

Оценивание доли работающих женщин требует обследовать

Можно было бы сразу определить, по какому признаку следует проводить расчеты. Им всегда является тот, который имеет большую точность (меньшую ошибку при одной и той же доверительной вероятности). Однако третий признак в нашем примере - количественный. Определим, какой объем выборки потребуется, чтобы оценить его. Приблизительное значение дисперсии получим исходя из свойств нормального распределения:

(при максимальном и минимальном возрасте, равном соответственно 60 и 18 лет, что является наиболее вероятным разбросом).

Откуда ст 2 = 49.

Проведем расчет:

Итак, для достижения заданной точности по всем наблюдаемым признакам следует выбрать максимальную численность, полученную по всем трем показателям, т.е. п = 65 фирм.

Отрасль экономики

Число фирм, отбираемых в выборочную совокупность

Промышленность

Сельское хозяйство

Строительство

Транспорт и связь

Торговля и общественное питание

Общая коммерческая деятельность

Жилищно-коммунальное хозяйство и непроизводственные виды бытового обслуживания населения

Другие отрасли

Неформализованные способы формирования выборки. Вопрос об оптимальном размере выборки всегда был спорным в среде исследователей. Решение относительно размера выборочной совокупности принимают с учетом целого ряда факторов, среди которых самую существенную роль играют два: 1) ценность и новизна получаемой в результате исследования информации; 2) затраты на проведение исследования (включая и временные) при заданном размере выборки.

Во многих случаях можно руководствоваться сложившейся практикой, т.е. размером выборки, использовавшейся в аналогичных исследованиях. Кроме того, существуют следующие простейшие правила для определения объема выборочной совокупности.

Размер выборки растет, если:

  • необходимо получить данные для отдельных подгрупп (размеры подвыборок при этом суммируются и выборка в целом растет пропорционально числу подгрупп);
  • уже имеющаяся информация по ключевым вопросам недостаточна и степень неопределенности значительна.

К тому же практикой многочисленных исследований уже отработаны «типические» размеры выборок. Так, для общенациональных опросов населения эти объемы варируют в пределах 1000-2500 респондентов (в зависимости от числа анализируемых групп). Для региональных опросов и опросов специальных популяций - от 200 до 500 (при анализе многочисленных подгрупп размер региональной или специальной выборки обычно возрастает как минимум до 1000 человек). Указанные значения, разумеется, могут служить лишь самым общим ориентиром для определения оптимального размера выборки.