Главная - Режиссура
Генеральная совокупность и выборочное исследование. Статистическая достоверность

Часто бывает так, что необходимо проанализировать какое-либо конкретное социальное явление и получить информацию о нем. Такие задания часто возникают в статистике и при статистических исследованиях. Проверить полностью определенное социальное явление чаще всего бывает невозможным. Например, как узнать мнение населения или всех жителей определенного города по какому-либо вопросу? Спрашивать абсолютно всех – дело практически невозможное и очень трудоемкое. В таких случаях нам и необходима выборка. Это именно то понятие, на котором основаны практически все исследования и анализы.

Что такое выборка

При анализе конкретного социального явления необходимо получить информацию о нем. Если взять любое исследование, то можно заметить, что исследованию и анализу подлежит не каждая единица совокупности объекта исследования. Во внимание берется только определенная часть всей этой совокупности. Вот этот процесс и является выборкой: когда исследуются только определенные единицы из множества.

Конечно же, многое зависит от вида выборки. Но есть и основные правила. Главное из них гласит, что отбор из совокупности должен быть абсолютно случайным. Единицы совокупности, которые будут использованы, не должны быть выбраны из-за какого-либо критерия. Грубо говоря, если необходимо набрать совокупность из населения определенного города и отобрать только мужчин, то в исследовании будет ошибка, потому что отбор был проведен не случайно, а отобран по гендерному признаку. Практически все методы выборки основаны на этом правиле.

Правила выборки

Для того чтобы отобранная совокупность отражала основные качества всего явления, она должна быть построена по конкретным законам, где основное внимание необходимо уделять следующим категориям:

  • выборка (выборочная совокупность);
  • генеральная совокупность;
  • репрезентативность;
  • ошибка репрезентативности;
  • единица совокупности;
  • способы построения выборки.

Особенности выборочного наблюдения и составления выборки заключаются в следующем:

  1. Все полученные результаты основаны на математических законах и правилах, то есть при правильном проведении исследования и при правильных расчетах результаты не будут искажены по субъективному признаку
  2. Дает возможность значительно быстрее и с меньшими затратами времени и ресурсов получить результат, изучая не весь массив событий, а только их часть.
  3. Может быть применено для изучения различных объектов: от конкретных вопросов, например, возраст, пол интересующей нас группы, к изучению общественного мнения или уровня материального обеспечения населения.

Выборочное наблюдение

Выборочное - это такое статистическое наблюдение, при котором исследованию подвергается не вся совокупность изучаемого, а лишь некоторая, отобранная определенным образом ее часть, а полученные результаты изучения этой части распространяются на всю совокупность. Эта часть называется выборочной совокупностью. Это единственный способ изучения большого массива объекта исследования.

Но выборочное наблюдение может использоваться только в тех случаях, когда необходимо исследовать лишь малую группу единиц. Например, при исследовании соотношения мужчин к женщинам в мире, будет использоваться выборочное наблюдение. По понятным причинам – взять во внимание каждого жителя нашей планеты невозможно.

А вот при таком же исследовании, но не всех жителей земли, а определенного 2 «А» класса в конкретной школе, определенного города, определенной страны, может обойтись без выборочного наблюдения. Ведь проанализировать весь массив объекта исследования – вполне возможно. Необходимо посчитать мальчиков и девочек этого класса - вот и будет соотношение.


Выборочная и генеральная совокупность

На самом деле все не так сложно, как звучит. В любом объекте изучения есть две системы: генеральная и выборочная совокупность. Что же это такое? Все единицы относятся к генеральной. А к выборочной – те единицы общей совокупности, которые были взяты для выборки. Если все правильно сделано, то отобранная часть будет составлять уменьшенный макет всей (генеральной) совокупности.

Если говорить о генеральной совокупности, то можно выделить всего две ее разновидности: определенная и неопределенная генеральная совокупность. Зависит от того, известно ли общее количество единиц данной системы или нет. Если это определенная генеральная совокупность, то выборку будет делать легче из-за того, что известно, какой процент от общего количества единиц будет составлять выборка.

Этот момент очень необходим в исследованиях. Например, если необходимо исследовать процент недоброкачественной продукции кондитерских изделий на конкретном заводе. Допустим, что генеральная совокупность уже определена. Точно известно, что в год это предприятие производит 1000 кондитерских изделий. Если сделать выборку 100 случайных кондитерских изделий из этой тысячи и отправить их на экспертизу, то погрешность будет минимальной. Грубо говоря, исследованию подлежало 10 % всей продукции, и по результатам можем, приняв во внимание ошибку репрезентативности, говорить о недоброкачественности всей продукции.

А если провести выборку 100 кондитерских изделий из неопределенной генеральной совокупности, где их на самом деле было, допустим, 1 млн единиц, то результат выборки и самого исследования будет критически неправдоподобным и неточным. Чувствуете разницу? Поэтому определенность генеральной совокупности в большинстве случаев крайне важна и очень сильно влияет на результат исследования.


Репрезентативность совокупности

Итак, теперь один из самых главных вопросов - какой должна быть выборка? Это самый главный момент исследования. На этом этапе необходимо рассчитать выборку и отобрать единицы из общего числа в нее. Совокупность была отобрана правильно, если определенные особенности и характеристики генеральной совокупности остается и в выборочной. Это называется репрезентативностью.

Иными словами, если после отбора часть сохраняет те же самые тенденции и особенности что и все количество исследуемого, то такая совокупность называется репрезентативной. Но не каждая определенная выборка может быть отобрана из репрезентативной совокупности. Бывают и такие объекты исследования, выборка которых просто не может быть репрезентативной. Отсюда и возникает понятие ошибки репрезентативности. Но об этом поговорим подробнее чуть больше.

Как сделать выборку

Итак, чтобы репрезентативность была максимальной, выделяют три основные правила выборки:

  1. Самым уникальным показателем числа выборки считается 20 %. Статистическая выборка в 20 % будет практически всегда давать результат максимально приближенный к действительности. В то же самое время нет необходимости переносить в собранную большую часть генеральной совокупности. 20 % выборки – это тот показатель, который выработан многими исследованиями. Приведем еще немного теории. Чем больше выборка, тем меньше ошибка репрезентативности и точнее результат исследования. Чем ближе будет выборочная совокупность к генеральной по количеству единиц, тем более точными и правильными будут результаты. Ведь если исследовать всю систему, тогда результат будет 100 %. Но здесь уже нет выборки. Это те исследования, в которых исследуется весь массив, все единицы, поэтому это нас не интересует.
  2. В случае нецелесообразности обработки 20 % генеральной совокупности допускается изучение единиц совокупности в количестве не менее 1001. Это также один из показателей исследования массива объекта исследования, который выработался со временем. Конечно же, он не даст точных результатов при больших массивах исследования, но максимально приблизит к возможной точности выборки.
  3. В статистике существует множество формул и сведенных таблиц. В зависимости от объекта исследования и от критерия выборки, существует целесообразность выбора той или иной формулы. Но этот пункт используется в сложных и многоэтапных исследованиях.

Погрешность (ошибка) репрезентативности

Главной характеристикой качества выбранной выборки является понятие «погрешности репрезентативности». Что же это такое? Это определенные расхождения между показателями выборочного и сплошного наблюдения. По показателям погрешности репрезентативность делят на надежную, обычную и приближенную. Иначе говоря, допустимыми являются отклонения в размере до 3 %, от 3 до 10 % и от 10 до 20 % соответственно. Хотя в статистике желательно, чтобы погрешность не превышал 5-6 %. В противном случае есть повод говорить о недостаточной репрезентативности выборки. Для вычисления погрешности репрезентативности и того, как она влияет на выборочную или генеральную совокупность, во внимание берутся многие факторы:

  1. Вероятность, с которой необходимо получить точный результат.
  2. Количества единиц выборочной совокупности. Как уже упоминалось ранее, чем меньше единиц составит выборка, тем больше будет ошибка репрезентативности, и наоборот.
  3. Однородность исследуемой совокупности. Чем более разнородной является совокупность, тем больше будет погрешность репрезентативности. Возможность совокупности быть репрезентативной зависит от однородности всех ее составляющих единиц.
  4. Способ отбора единиц в выборочную совокупность.

В конкретно заданных исследованиях процент погрешности среднего значения обычно задается самим исследователем на основании программы наблюдения и согласно данным ранее проведенных исследований. Как правило, считается допустимой предельная ошибка выборки (ошибка репрезентативности) в пределах 3-5 %.


Больше – не всегда лучше

Также стоит помнить, что главное при организации выборочного наблюдения - это доведение его объема до допустимого минимума. При этом не следует стремиться к чрезмерному уменьшению границ погрешности выборки, так как это может привести к неоправданному увеличению объема данных выборки и, следовательно, к повышению расходов на проведение выборочного наблюдения.

В то же время нельзя и чрезмерно увеличивать размер погрешности репрезентативности. Ведь в этом случае, хотя и произойдет уменьшение объема выборочной совокупности, это приведет к ухудшению достоверности полученных результатов.

Какие вопросы обычно ставится перед исследователем

Любое исследование если и проводится, то для какой-то цели и для получения каких-то результатов. При проведении выборочного исследования, как правило, ставятся начальные вопросы:

  1. Определение необходимого количества единиц выборочной совокупности, то есть то, сколько единиц будет исследоваться. К тому же, для точного исследования совокупность должна быть репрезентативной.
  2. Расчет погрешности репрезентативности с установленным уровнем вероятности. Сразу стоит отметить, что выборочных исследований не бывает с уровнем вероятности 100 %. Если та инстанция, которая проводила изучение определенного сегмента, утверждает, что их результаты точны с вероятностью 100 %, то это ложь. Многолетняя практика уже установила процент вероятности правильно проведенного выборочного исследования. Этот показатель равняется 95,4 %.

Способы отбора единиц исследования в выборку

Не каждая выборка является репрезентативной. Иногда один и тот же признак по-разному выражен в целом и в ее части. Для достижения требований репрезентативности целесообразным является использование различных приемов создания выборки. Причем использование того или иного способа зависит от конкретных обстоятельств. Среди таких приемов создания выборки выделяют:

  • случайный отбор;
  • механический отбор;
  • типичный отбор;
  • серийный (гнездовой) отбор.

Случайный отбор представляет собой систему мероприятий, направленных на случайный отбор единиц совокупности, когда вероятность попасть в выборку является равной для всех единиц генеральной совокупности. Этот прием целесообразно применять только в случае однородности и небольшого количества присущих ей признаков. В противном случае некоторые характерные черты рискуют быть не отраженным в выборке. Признаки случайного отбора лежат в основе всех других способов построения выборки.

При механическом отбор единиц проводится через определенный интервал. Если необходимо сформировать выборку конкретных преступлений, можно изымать из всех карточек статистического учета зарегистрированных преступлений каждую 5-ю, 10-ю или 15-ю карточку в зависимости от их общего количества и имеющихся размеров выборки. Недостатком этого способа является то, что перед отбором необходимо иметь полный учет единиц совокупности, затем нужно провести ранжирование и только после этого можно проводить выборку с определенным интервалом. Этот метод занимает много времени, поэтому он и не часто используется.


Типичный (районированный) отбор – вид выборки, при котором генеральную совокупность разделяют на однородные группы по определенному признаку. Иногда исследователи употребляют вместо «групп» другие термины: «районы» и «зоны». Затем из каждой группы в случайном порядке отбирается определенное количество единиц пропорционально удельному весу группы в общей совокупности. Типичный отбор часто осуществляется в несколько этапов.

Серийный отбор - это такой метод, при котором отбор единиц проводится группами (сериями) и обследованию подлежат все единицы отобранной группы (серии). Преимуществом этого способа является то, что иногда отобрать отдельные единицы сложнее, чем серии, например, при изучении личности, которая отбывает наказание. В рамках отобранных районов, зон применяется изучение всех единиц без исключения, например, изучение всех лиц, отбывающих наказание в каком-то определенном учреждении.

Интервальное оценивание вероятности события. Формулы расчета численности выборки при собственно-случайном способе отбора.

Для определения вероятностей интересующих нас событий мы применяем выборочный метод : проводим n независимых экспериментов, в каждом из которых может произойти (или не произойти) событие А (вероятность р появления события А в каждом эксперименте постоянна). Тогда относительная частота p* появлений событий А в серии из n испытаний принимается в качестве точечной оценки для вероятности p появления события А в отдельном испытании. При этом величину p* называют выборочной долей появлений события А , а р - генеральной долей .

В силу следствия из центральной предельной теоремы (теорема Муавра-Лапласа) относительную частоту события при большом объеме выборки можно считать нормально распределенной с параметрами M(p*)=p и

Поэтому при n>30 доверительный интервал для генеральной доли можно построить, используя формулы:


где u кр находится по таблицам функции Лапласа с учетом заданной доверительной вероятности γ: 2Ф(u кр)=γ.

При малом объеме выборки n≤30 предельная ошибка ε определяется по таблице распределения Стьюдента :
где t кр =t(k; α) и число степеней свободы k=n-1 вероятность α=1-γ (двустороння область).

Формулы справедливы, если отбор проводился случайным повторным образом (генеральная совокупность бесконечна), в противном случае необходимо сделать поправку на бесповторность отбора (таблица).

Средняя ошибка выборки для генеральной доли

Генеральная совокупность Бесконечная Конечная объема N
Тип отбора Повторный Бесповторный
Средняя ошибка выборки

Формулы расчета численности выборки при собственно-случайном способе отбора

Способ отбора Формулы определения численности выборки
для средней для доли
Повторный
Бесповторный
Доля единиц w = . Точность ε = . Вероятность γ =

Задачи о генеральной доле

На вопрос «Накрывает ли доверительный интервал заданное значение p 0 ?» - можно ответить, проверив статистическую гипотезу H 0:p=p 0 . При этом предполагается, что опыты проводятся по схеме испытаний Бернулли (независимы, вероятность p появления события А постоянна). По выборке объема n определяют относительную частоту p * появления события A: где m - количество появлений события А в серии из n испытаний. Для проверки гипотезы H 0 используется статистика, имеющая при достаточно большом объеме выборки стандартное нормальное распределение (табл. 1).
Таблица 1 - Гипотезы о генеральной доле

Гипотеза

H 0:p=p 0 H 0:p 1 =p 2
Предположения Схема испытаний Бернулли Схема испытаний Бернулли
Оценки по выборке
Статистика K
Распределение статистики K Стандартное нормальное N(0,1)

Пример №1 . С помощью случайного повторного отбора руководство фирмы провело выборочный опрос 900 своих служащих. Среди опрошенных оказалось 270 женщин. Постройте доверительный интервал , с вероятностью 0.95 накрывающий истинную долю женщин во всем коллективе фирмы.
Решение. По условию выборочная доля женщин составляет (относительная частота женщин среди всех опрошенных). Так как отбор является повторным, и объем выборки велик (n=900) предельная ошибка выборки определяется по формуле

Значение u кр находим по таблице функции Лапласа из соотношения 2Ф(u кр)=γ, т.е. Функция Лапласа (приложение 1) принимает значение 0.475 при u кр =1.96. Следовательно, предельная ошибка и искомый доверительный интервал
(p – ε, p + ε) = (0.3 – 0.18; 0.3 + 0.18) = (0.12; 0.48)
Итак, с вероятностью 0.95 можно гарантировать, что доля женщин во всем коллективе фирмы находится в интервале от 0.12 до 0.48.

Пример №2 . Владелец автостоянки считает день «удачным», если автостоянка заполнена более, чем на 80 %. В течение года было проведено 40 проверок автостоянки, из которых 24 оказались «удачными». С вероятностью 0.98 найдите доверительный интервал для оценки истинной доли «удачных» дней в течение года.
Решение . Выборочная доля «удачных» дней составляет
По таблице функции Лапласа найдем значение u кр при заданной
доверительной вероятности
Ф(2.23) = 0.49, u кр = 2.33.
Считая отбор бесповторным (т.е. две проверки в один день не проводилось), найдем предельную ошибку:
где n=40 , N = 365 (дней). Отсюда
и доверительный интервал для генеральной доли: (p – ε, p + ε) = (0.6 – 0.17; 0.6 + 0.17) = (0.43; 0.77)
С вероятностью 0.98 можно ожидать, что доля «удачных» дней в течение года находится в интервале от 0.43 до 0.77.

Пример №3 . Проверив 2500 изделий в партии, обнаружили, что 400 изделий высшего сорта, а n–m – нет. Сколько надо проверить изделий, чтобы с уверенностью 95% определить долю высшего сорта с точностью до 0.01 ?
Решение ищем по формуле определения численности выборки для повторного отбора.

Ф(t) = γ/2 = 0.95/2 = 0.475 и этому значению по таблице Лапласа соответствует t=1.96
Выборочная доля w = 0.16; ошибка выборки ε = 0.01

Пример №4 . Партия изделий принимается, если вероятность того, что изделие окажется соответствующим стандарту, составляет не менее 0.97. Среди случайно отобранных 200 изделий проверяемой партии оказалось 193 соответствующих стандарту. Можно ли на уровне значимости α=0,02 принять партию?
Решение . Сформулируем основную и альтернативную гипотезы.
H 0:p=p 0 =0,97 - неизвестная генеральная доля p равна заданному значению p 0 =0,97. Применительно к условию - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, равна 0.97; т.е. партию изделий можно принять.
H 1:p<0,97 - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, меньше 0.97; т.е. партию изделий нельзя принять. При такой альтернативной гипотезе критическая область будет левосторонней.
Наблюдаемое значение статистики K (таблица) вычислим при заданных значениях p 0 =0,97, n=200, m=193


Критическое значение находим по таблице функции Лапласа из равенства


По условию α=0,02 отсюда Ф(Ккр)=0,48 и Ккр=2,05. Критическая область левосторонняя, т.е. является интервалом (-∞;-K kp)= (-∞;-2,05). Наблюдаемое значение К набл =-0,415 не принадлежит критической области, следовательно, на данном уровне значимости нет оснований отклонять основную гипотезу. Партию изделий принять можно.

Пример №5 . Два завода изготавливают однотипные детали. Для оценки их качества сделаны выборки из продукции этих заводов и получены следующие результаты. Среди 200 отобранных изделий первого завода оказалось 20 бракованных, среди 300 изделий второго завода - 15 бракованных.
На уровне значимости 0.025 выяснить, имеется ли существенное различие в качестве изготавливаемых этими заводами деталей.

По условию α=0,025 отсюда Ф(Ккр)=0,4875 и Ккр=2,24. При двусторонней альтернативе область допустимых значений имеет вид (-2,24;2,24). Наблюдаемое значение K набл =2,15 попадает в этот интервал, т.е. на данном уровне значимости нет оснований отвергать основную гипотезу. Заводы изготавливают изделия одинакового качества.

Часто бывает так, что необходимо проанализировать какое-либо конкретное социальное явление и получить информацию о нем. Такие задания часто возникают в статистике и при статистических исследованиях. Проверить полностью определенное социальное явление чаще всего бывает невозможным. Например, как узнать мнение населения или всех жителей определенного города по какому-либо вопросу? Спрашивать абсолютно всех - дело практически невозможное и очень трудоемкое. В таких случаях нам и необходима выборка. Это именно то понятие, на котором основаны практически все исследования и анализы.

Что такое выборка

При анализе конкретного социального явления необходимо получить информацию о нем. Если взять любое исследование, то можно заметить, что исследованию и анализу подлежит не каждая единица совокупности объекта исследования. Во внимание берется только определенная часть всей этой совокупности. Вот этот процесс и является выборкой: когда исследуются только определенные единицы из множества.

Конечно же, многое зависит от вида выборки. Но есть и основные правила. Главное из них гласит, что отбор из совокупности должен быть абсолютно случайным. Единицы совокупности, которые будут использованы, не должны быть выбраны из-за какого-либо критерия. Грубо говоря, если необходимо набрать совокупность из населения определенного города и отобрать только мужчин, то в исследовании будет ошибка, потому что отбор был проведен не случайно, а отобран по гендерному признаку. Практически все методы выборки основаны на этом правиле.

Правила выборки

Для того чтобы отобранная совокупность отражала основные качества всего явления, она должна быть построена по конкретным законам, где основное внимание необходимо уделять следующим категориям:

  • выборка (выборочная совокупность);
  • генеральная совокупность;
  • репрезентативность;
  • ошибка репрезентативности;
  • единица совокупности;
  • способы построения выборки.

Особенности выборочного наблюдения и составления выборки заключаются в следующем:

  1. Все полученные результаты основаны на математических законах и правилах, то есть при правильном проведении исследования и при правильных расчетах результаты не будут искажены по субъективному признаку
  2. Дает возможность значительно быстрее и с меньшими затратами времени и ресурсов получить результат, изучая не весь массив событий, а только их часть.
  3. Может быть применено для изучения различных объектов: от конкретных вопросов, например, возраст, пол интересующей нас группы, к изучению общественного мнения или уровня материального обеспечения населения.

Выборочное наблюдение

Выборочное - это такое статистическое наблюдение, при котором исследованию подвергается не вся совокупность изучаемого, а лишь некоторая, отобранная определенным образом ее часть, а полученные результаты изучения этой части распространяются на всю совокупность. Эта часть называется выборочной совокупностью. Это единственный способ изучения большого массива объекта исследования.

Но выборочное наблюдение может использоваться только в тех случаях, когда необходимо исследовать лишь малую группу единиц. Например, при исследовании соотношения мужчин к женщинам в мире, будет использоваться выборочное наблюдение. По понятным причинам - взять во внимание каждого жителя нашей планеты невозможно.

А вот при таком же исследовании, но не всех жителей земли, а определенного 2 «А» класса в конкретной школе, определенного города, определенной страны, может обойтись без выборочного наблюдения. Ведь проанализировать весь массив объекта исследования - вполне возможно. Необходимо посчитать мальчиков и девочек этого класса - вот и будет соотношение.

Выборочная и генеральная совокупность

На самом деле все не так сложно, как звучит. В любом объекте изучения есть две системы: генеральная и выборочная совокупность. Что же это такое? Все единицы относятся к генеральной. А к выборочной - те единицы общей совокупности, которые были взяты для выборки. Если все правильно сделано, то отобранная часть будет составлять уменьшенный макет всей (генеральной) совокупности.

Если говорить о генеральной совокупности, то можно выделить всего две ее разновидности: определенная и неопределенная генеральная совокупность. Зависит от того, известно ли общее количество единиц данной системы или нет. Если это определенная генеральная совокупность, то выборку будет делать легче из-за того, что известно, какой процент от общего количества единиц будет составлять выборка.

Этот момент очень необходим в исследованиях. Например, если необходимо исследовать процент недоброкачественной продукции кондитерских изделий на конкретном заводе. Допустим, что генеральная совокупность уже определена. Точно известно, что в год это предприятие производит 1000 кондитерских изделий. Если сделать выборку 100 случайных кондитерских изделий из этой тысячи и отправить их на экспертизу, то погрешность будет минимальной. Грубо говоря, исследованию подлежало 10 % всей продукции, и по результатам можем, приняв во внимание ошибку репрезентативности, говорить о недоброкачественности всей продукции.

А если провести выборку 100 кондитерских изделий из неопределенной генеральной совокупности, где их на самом деле было, допустим, 1 млн единиц, то результат выборки и самого исследования будет критически неправдоподобным и неточным. Чувствуете разницу? Поэтому определенность генеральной совокупности в большинстве случаев крайне важна и очень сильно влияет на результат исследования.

Репрезентативность совокупности

Итак, теперь один из самых главных вопросов - какой должна быть выборка? Это самый главный момент исследования. На этом этапе необходимо рассчитать выборку и отобрать единицы из общего числа в нее. Совокупность была отобрана правильно, если определенные особенности и характеристики генеральной совокупности остается и в выборочной. Это называется репрезентативностью.

Иными словами, если после отбора часть сохраняет те же самые тенденции и особенности что и все количество исследуемого, то такая совокупность называется репрезентативной. Но не каждая определенная выборка может быть отобрана из репрезентативной совокупности. Бывают и такие объекты исследования, выборка которых просто не может быть репрезентативной. Отсюда и возникает понятие ошибки репрезентативности. Но об этом поговорим подробнее чуть больше.

Как сделать выборку

Итак, чтобы репрезентативность была максимальной, выделяют три основные правила выборки:


Погрешность (ошибка) репрезентативности

Главной характеристикой качества выбранной выборки является понятие «погрешности репрезентативности». Что же это такое? Это определенные расхождения между показателями выборочного и сплошного наблюдения. По показателям погрешности репрезентативность делят на надежную, обычную и приближенную. Иначе говоря, допустимыми являются отклонения в размере до 3 %, от 3 до 10 % и от 10 до 20 % соответственно. Хотя в статистике желательно, чтобы погрешность не превышал 5-6 %. В противном случае есть повод говорить о недостаточной репрезентативности выборки. Для вычисления погрешности репрезентативности и того, как она влияет на выборочную или генеральную совокупность, во внимание берутся многие факторы:

  1. Вероятность, с которой необходимо получить точный результат.
  2. Количества единиц выборочной совокупности. Как уже упоминалось ранее, чем меньше единиц составит выборка, тем больше будет ошибка репрезентативности, и наоборот.
  3. Однородность исследуемой совокупности. Чем более разнородной является совокупность, тем больше будет погрешность репрезентативности. Возможность совокупности быть репрезентативной зависит от однородности всех ее составляющих единиц.
  4. Способ отбора единиц в выборочную совокупность.

В конкретно заданных исследованиях процент погрешности среднего значения обычно задается самим исследователем на основании программы наблюдения и согласно данным ранее проведенных исследований. Как правило, считается допустимой предельная ошибка выборки (ошибка репрезентативности) в пределах 3-5 %.

Больше - не всегда лучше

Также стоит помнить, что главное при организации выборочного наблюдения - это доведение его объема до допустимого минимума. При этом не следует стремиться к чрезмерному уменьшению границ погрешности выборки, так как это может привести к неоправданному увеличению объема данных выборки и, следовательно, к повышению расходов на проведение выборочного наблюдения.

В то же время нельзя и чрезмерно увеличивать размер погрешности репрезентативности. Ведь в этом случае, хотя и произойдет уменьшение объема выборочной совокупности, это приведет к ухудшению достоверности полученных результатов.

Какие вопросы обычно ставится перед исследователем

Любое исследование если и проводится, то для какой-то цели и для получения каких-то результатов. При проведении выборочного исследования, как правило, ставятся начальные вопросы:


Способы отбора единиц исследования в выборку

Не каждая выборка является репрезентативной. Иногда один и тот же признак по-разному выражен в целом и в ее части. Для достижения требований репрезентативности целесообразным является использование различных приемов создания выборки. Причем использование того или иного способа зависит от конкретных обстоятельств. Среди таких приемов создания выборки выделяют:

  • случайный отбор;
  • механический отбор;
  • типичный отбор;
  • серийный (гнездовой) отбор.

Случайный отбор представляет собой систему мероприятий, направленных на случайный отбор единиц совокупности, когда вероятность попасть в выборку является равной для всех единиц генеральной совокупности. Этот прием целесообразно применять только в случае однородности и небольшого количества присущих ей признаков. В противном случае некоторые характерные черты рискуют быть не отраженным в выборке. Признаки случайного отбора лежат в основе всех других способов построения выборки.

При механическом отбор единиц проводится через определенный интервал. Если необходимо сформировать выборку конкретных преступлений, можно изымать из всех карточек статистического учета зарегистрированных преступлений каждую 5-ю, 10-ю или 15-ю карточку в зависимости от их общего количества и имеющихся размеров выборки. Недостатком этого способа является то, что перед отбором необходимо иметь полный учет единиц совокупности, затем нужно провести ранжирование и только после этого можно проводить выборку с определенным интервалом. Этот метод занимает много времени, поэтому он и не часто используется.

Типичный (районированный) отбор - вид выборки, при котором генеральную совокупность разделяют на однородные группы по определенному признаку. Иногда исследователи употребляют вместо «групп» другие термины: «районы» и «зоны». Затем из каждой группы в случайном порядке отбирается определенное количество единиц пропорционально удельному весу группы в общей совокупности. Типичный отбор часто осуществляется в несколько этапов.

Серийный отбор - это такой метод, при котором отбор единиц проводится группами (сериями) и обследованию подлежат все единицы отобранной группы (серии). Преимуществом этого способа является то, что иногда отобрать отдельные единицы сложнее, чем серии, например, при изучении личности, которая отбывает наказание. В рамках отобранных районов, зон применяется изучение всех единиц без исключения, например, изучение всех лиц, отбывающих наказание в каком-то определенном учреждении.

Процедура составления плана выборки включает последовательное решение трех следующих задач:

Определение объекта исследования;

Определение структуры выборки;

Определение объема выборки.

Как правило, объект маркетингового исследования представляет собой совокупность объектов наблюдения, в качестве которых могут выступать потребители, сотрудники компании, посредники и т.д. Если эта совокупность настолько малочисленна, что исследовательская группа располагает необходимыми трудовыми, финансовыми и временными возможностями для установления контакта с каждым из ее элементов, то вполне реально проведение сплошного исследования всей совокупности. В этом случае, определив объект исследования, можно приступать к следующей процедуре (выбору метода сбора данных, орудия исследования и способа связи с аудиторией).

Однако на практике очень часто не представляется возможным или целесообразным проведение сплошного исследования всей совокупности. Для этого могут быть следующие причины:

Невозможность установления контакта с некоторыми элементами совокупности;

Неоправданно большие расходы на проведение сплошного исследования или наличие финансовых ограничений, не позволяющих проведение сплошного исследования;

Сжатые сроки, отведенные для исследования, обусловленные утратой со временем актуальности информации или другими причинами и не позволяющие осуществить сбор, систематизацию и анализ обширных данных для всей совокупности.

Поэтому большие и разбросанные совокупности часто изучаются с помощью выборки, под которой, как известно, понимается часть совокупности, призванная олицетворять совокупность в целом.

Точность, с которой выборка отражает совокупность в целом, зависит от структуры и размера выборки .

Различают два подхода к структуре выборки - вероятностный и детерминированный.

Вероятностный подход к структуре выборки предполагает, что любой элемент совокупности может быть выбран с определенной (не нулевой) вероятностью. Существуют различные виды выборок, основанных на теории вероятностей (типическая, гнездовая и др.). Наиболее простой и распространенной на практике является простая случайная выборка, при которой каждый элемент совокупности имеет равную вероятность выбора для исследования.

Вероятностная выборка более точна, позволяет исследователю оценить степень достоверности собранных им данных, хотя она сложней и дороже, чем детерминированная.

Детерминированный подход к структуре выборки предполагает, что выбор элементов совокупности производится методами, основанными либо на соображениях удобства, либо на решении исследователя, либо на контингентных группах.

на соображениях удобства , состоит в выборе любых элементов совокупности исходя из простоты установления контакта с ними. Несовершенство этого метода обусловлено, возможно, низкой репрезентативностью полученной выборки, т.к. удобные для исследователя элементы совокупности могут быть недостаточно характерными представителями совокупности в силу неслучайного и необоснованного их отбора.

Однако, с другой стороны, простота, экономичность и оперативность исследования, проводимого этим методом, снискали ему довольно широкое распространение на практике и, прежде всего при проведении предварительных исследований, направленных на уточнение основных проблем.

Метод формирования выборки, основанный на решении исследователя , состоит в выборе элементов совокупности, которые, по его мнению, являются ее характерными представителями. Этот метод является более совершенным, чем предыдущий, поскольку в его основе лежит ориентировка на характерных представителей исследуемой совокупности, хотя и подбираемых на основе субъективных представлений исследователей о ней.

Метод формирования выборки, основанный на контингентных нормах , состоит в выборе характерных элементов совокупности в соответствии с полученными ранее характеристиками совокупности в целом. Эти характеристики могут быть получены путем проведения предварительных исследований и в отличие от предыдущего метода не носят субъективного характера. Поэтому данный метод является более совершенным, он позволяет получить выборочные совокупности не менее представительные, чем вероятностные выборки при значительно меньших затратах на проведение обследования.

Выбрав структуру выборки (подход к ее формированию, вид вероятностной или метая формирования детерминированной выборки), исследователю предстоит определить объем, т.е. количество элементов выборочной совокупности.

Объем выборки определяет достоверность информации , полученной в результате ее исследования, а также необходимые для проведения исследования затраты. Объем выборки зависит от уровня однородности или разновидности изучаемых объектов.

Чем больше объем выборки, тем выше ее точность и больше затраты на проведения ее обследования. При вероятностном подходе к структуре выборки ее объем может быть определен с помощью известных статистических формул, на основе заданных требований к ее точности.

На практике используется несколько подходов к определению объема выборки:

1. Произвольный подход основан на применении «правила большого пальца». Например, бездоказательно принимается, что для получения точных результатов выборка должна составлять 5 % от совокупности. Данный подход является простым и легким в исполнении, однако не представляется возможным установить точность полученных результатов. При достаточно большой совокупности он к тому же может быть и весьма дорогим.

Объем выборки может быть установлен исходя из неких заранее оговоренных условий. К примеру, заказчик маркетингового исследования знает, что при изучении общественного мнения выборка обычно составляет 1000-1200 человек, поэтому он рекомендует исследователю придерживаться данной цифры. В случае, если на каком-то рынке проводятся ежегодные исследования, то в каждом году используется выборка одного и того же объема. В отличие от первого подхода здесь при определении объема выборки используется известная логика, которая, однако, является весьма уязвимой.

Например, при проведении определенных исследований может потребоваться точность меньше, чем при изучении общественного мнения, да и объем совокупности может быть во много раз меньше, нежели при изучении общественного мнения. Таким образом, данный подход не принимает в расчет текущие обстоятельства и может быть достаточно дорогим.

В ряде случаев в качестве главного аргумента при определении объема выборки используется стоимость проведения обследования. Так, в бюджете маркетинговых исследований предусматриваются затраты на проведение определенных обследований, которые нельзя превышать. Очевидно, что ценность получаемой информации не принимается в расчет. Однако в ряде случаев и малая выборка может дать достаточно точные результаты.

Представляется разумным учитывать затраты не абсолютным образом, а по отношению к полезности информации, полученной в результате проведенных обследований. Заказчик и исследователь должны рассмотреть различные объемы выборки и методы сбора данных, затраты, учесть другие факторы

2. Объем выборки от уровня доверительного интервала допустимой ошибки, каковая, как уже говорилось, задается целесообразной точностью итоговых обобщений: от повышенной до ориентировочной. Однако здесь имеются в виду так называемые случайные ошибки, связанные с природой любых статистических погрешностей. Именно они и вычисляются как ошибки репрезентативности вероятностных выборок.

В. И. Паниотто приводит следующие расчеты репрезентативной выборки с допущением 5-процентной ошибки (табл. 4.2).

Таблица 4.2

Расчетная таблица выборки

Для совокупности более 100000 выборка составляет 400 единиц. Если же иметь в виду генеральные совокупности численностью от 5 тыс. и больше, то, по расчетам того же автора, можно указать величины фактической ошибки выборки в зависимости от ее объема, что для нас весьма важно, памятуя, что величина допустимой ошибки зависит от цели исследования и необязательно должна приближаться к 5-процентному уровню.

Таблица 4.3

Расчетная таблица

Объем выборки, если генеральная совокупность  5000

Фактическая ошибка при данном объёме выборки, %

Наряду со случайными возможны ошибки систематического характера. Они зависят от организации выборочного обследования. Это разнообразные смещения выборки в сторону одного из полюсов выборочного параметра.

3. Объем выборки на основе статистического анализа . Этот подход основан на определении минимального объема выборки исходя из определенных требований к надежности и достоверности получаемых результатов. Он также используется при анализе полученных результатов для отдельных подгрупп, формируемых в составе выборки по полу, возрасту, уровню образования и т.п. Требования к надежности и точности результатов для отдельных подгрупп диктуют определенные требования к объему выборки в целом.

Наиболее теоретически обоснованный и корректный подход к определению объема выборки основан на расчете достоверных интервалов. Понятие вариации характеризует величину несхожести (схожести) ответов респондентов на определенный вопрос. В более строгом плане вариацией значений какого-либо признака в совокупности называется различие его значений у разных единиц данной совокупности в один и тот же период или момент времени. Результаты ответов на вопросы опроса обычно представляются в форме кривой распределения (рис. 4.1). При высокой схожести ответов говорят о малой вариации (узкая кривая распределения) и при низкой схожести ответов – о высокой вариации (широкая кривая распределения).

В качестве меры вариации обычно принимается среднее квадратическое отклонение, которое характеризует среднее расстояние от средней оценки ответов каждого респондента на определенный вопрос.

Малая вариация

Высокая вариация

Рис. 4.1. Вариация и кривые распределения

Поскольку все маркетинговые решения принимаются в условиях неопределенности, то это обстоятельство целесообразно учесть при определении объема выборки. Так как определение исследуемых величин для совокупности в узком осуществляется на основе выборочной статистики, то следует установить диапазон (доверительный интервал), в который, как ожидается, попадут оценки для совокупности в целом, и ошибку их определения.

Доверительный интервал – это диапазон, крайним точкам которого соответствует определенный процент определенных ответов на какой-то вопрос. Доверительный интервал тесно связан со средним квадратическим отклонением изучаемого признака в генеральной совокупности: чем оно больше, тем шире должен быть доверительный интервал, чтобы включить в свой состав определенный процент ответов.

Доверительный интервал, равный или 95 %, или 99 %, является стандартным при проведении маркетинговых исследований. Ни одна фирма не проводит маркетинговых исследований, формируя несколько выборок. И математическая статистика дает возможность получить некую информацию о выборочном распределении, владея только данными о вариации единственной выборки.

Индикатором степени отличия оценки, истинной для совокупности в целом, от оценки, которая ожидается для типичной выборки, является средняя квадратическая ошибка. Причем, чем больше объем выборки, тем меньше ошибка. Высокое значение вариации обусловливает высокое значение ошибки и наоборот.

Когда на заданный вопрос существует только два варианта ответа, выраженные в процентах (используется процентная мера), объем выборки определяется по следующей формуле:

где n – объем выборки; z – нормированное отклонение, определяемое исходя из выбранного уровня доверительности; p – найденная вариация для выборки; g – (100-р); е – допустимая ошибка.

При определении показателя вариации для определенной совокупности прежде всего целесообразно провести предварительный качественный анализ исследуемой совокупности, в первую очередь установить схожесть единиц совокупности в демографическом, социальном и других отношениях, представляющих интерес для исследователя. Возможно проведение пилотного исследования, использование результатов подобных исследований, проведенных в прошлом. При использовании процентной меры изменчивости принимается в расчет то обстоятельство, что максимальная изменчивость достигается для р = 50 %, что является наихудшим случаем. К тому же этот показатель радикальным образом не влияет на объем выборки. Учитывается также мнение заказчика исследования об объеме выборки.

Возможно определение объема выборки на основе использования средних значений, а не процентных величин.

где s – среднее квадратическое отклонение.

На практике, если выборка формируется заново и схожие опросы не проводились, то s не известно. В этом случае целесообразно задавать погрешность е в долях от среднеквадратического отклонения. Расчетная формула преобразуется и приобретает следующий вид:

где .

Выше шел разговор о совокупностях очень больших размеров. Однако в ряде случаев совокупности не являются большими. Обычно, если выборка составляет менее пяти процентов от совокупности, то совокупность считается большой и расчеты проводятся по вышеприведенным правилам. Если объем выборки превышает 5 % от совокупности, то последняя считается малой и в вышеприведенные формулы вводится поправочный коэффициент.

Объем выборки в данном случае определяется следующим образом:

,

где n - объем выборки для малой совокупности; n 0 – объем выборки, рассчитанный по приведенным выше формулам; N – объем генеральной совокупности.

Очевидно, что использование выборки меньших размеров приведет к экономии времени и средств.

Приведенные формулы расчета объема выборки основаны на предположении, что все правила формирования выборки были соблюдены и единственной ошибкой выборки является ошибка, обусловленная ее объемом. Однако, следует помнить, что объем выборки определяет точность полученных результатов, но не их представительность.

Последняя определяется методом формирования выборки. Все формулы для расчета объема выборки предполагают, что репрезентативность гарантируется использованием корректных вероятностных процедур формирования выборки.

Объем, выборки определяется аналитическими, задачами исследования, а ее репрезентативность - целевой установкой программы. Именно программа задает образ необходимой генеральной совокупности для проведения выборки. Будет ли это все население или особые его структурные образования, все элементы изучаемого объекта или только выделяемые по заданным программой критериям, генеральную совокупность составляют все единицы, определенного в программе объекта.

При детерминированном подхода к структуре выборки в общем случае не представляется возможным расчетным путем точно определить ее объем в соответствии с заданным критерием достоверности полученной информации. В этом случае объем выборки может быть определен эмпирически. Ориентиром здесь может служить опыт проведения маркетинговых исследований за рубежом. Так, при обследовании покупателей высокая точность выборки обеспечивается, даже если ее объем не превышает 1% всей совокупности при проведении опросов покупателей средних и крупных розничных фирм, количество опрашиваемых (объем выборки), как правило, колеблется от 500 до 1000 человек.

Значение процедуры выбора метода сбора первичной информации, и орудия исследования состоит в том, что результаты этого выбора определяют как достоверность и точность подлежащей сбору информации, так и продолжительность, и дороговизну ее сбора.

Один из главных компонентов тщательно продуманного исследования – определение выборки и что такое репрезентативная выборка. Это как в примере с тортом. Ведь не обязательно съедать весь десерт, чтобы понять его вкус? Достаточно небольшой части.

Так вот, торт – это генеральная совокупность (то есть все респонденты, которые подходят для опроса). Она может быть выражена территориально, например, лишь жители Московской области. Гендерно – только женщины. Или иметь ограничения по возрасту – россияне старше 65 лет.

Высчитать генеральную совокупность сложно: нужно иметь данные переписи населения или предварительных оценочных опросов. Поэтому обычно генеральную совокупность «прикидывают», а из полученного числа высчитывают выборочную совокупность или выборку .

Что такое репрезентативная выборка?

Выборка – это чётко определенное количество респондентов. Её структура должна максимально совпадать со структурой генеральной совокупности по основным характеристикам отбора.

Например, если потенциальные респонденты – всё население России, где 54% — это женщины, а 46% — мужчины, то выборка должна содержать точно такое же процентное соотношение. Если совпадение параметров происходит, то выборку можно назвать репрезентативной. Это значит, что неточности и ошибки в исследовании сводятся к минимуму.

Объем выборки определяется с учётом требований точности и экономичности. Эти требования обратно пропорциональны друг другу: чем больше объем выборки, тем точнее результат. При этом чем выше точность, тем соответственно больше затрат необходимо на проведение исследования. И наоборот, чем меньше выборка, тем меньше на неё затрат, тем менее точно и более случайно воспроизводятся свойства генеральной совокупности.

Поэтому для вычисления объема выбора социологами была изобретена формула и создан специальный калькулятор :

Доверительная вероятность и доверительная погрешность

Что означают термины «доверительная вероятность » и «доверительная погрешность »? Доверительная вероятность – это показатель точности измерений. А доверительная погрешность – это возможная ошибка результатов исследования. К примеру, при генеральной совокупности более 500 00 человек (допустим, проживающие в Новокузнецке) выборка будет равняться 384 человека при доверительной вероятности 95% и погрешности 5% ИЛИ (при доверительном интервале 95±5%).

Что из этого следует? При проведении 100 исследований с такой выборкой (384 человека) в 95 процентов случаев получаемые ответы по законам статистики будут находиться в пределах ±5% от исходного. И мы получим репрезентативную выборку с минимальной вероятностью статистической ошибки.

После того, как подсчет объема выборки выполнен, можно посмотреть есть ли достаточное число респондентов в демо-версии Панели Анкетолога . А как провести панельный опрос можно подробнее узнать .



 


Читайте:



Праздник непослушания (Повесть-сказка) Праздник непослушания герои сказки

Праздник непослушания (Повесть-сказка) Праздник непослушания герои сказки

Михалков Сергей Владимирович Праздник Непослушания Сергей Владимирович Михалков Праздник Непослушания Повесть-сказка "Праздник Непослушания" -...

Почвенный покров южной америки

Почвенный покров южной америки

Страница 1 В отличие от Северной Америки, где изменения в растительном покрове зависят в значительной степени от изменений температурных условий,...

Расправленные крылья - музыкальная пауза Порядок описания Московской операции

Расправленные крылья - музыкальная пауза Порядок описания Московской операции

Ситуация на фронте весной 1942 года, планы сторон, немецкое наступление летом 1942 года, начало Сталинградской битвы, немецкий оккупационный режим,...

Cобытия Второй мировой войны

Cобытия Второй мировой войны

Вторая мировая война считается самой крупной в истории человечества. Она началась и закончилась 2 сентября 1945 года. За это время в ней приняло...

feed-image RSS