Типы выборки

Выборка | математика | fandom

Определение численности выборки

Разрабатывая программу выборочного наблюдения, иногда задаются конкретным значением предельной ошибки с уровнем вероятности. Неизвестной остается минимальная численность выборки, обеспечивающая заданную точность. Ее можно получить из формул средней и предельной ошибок в зависимости от типа выборки. Так, подставляя и в и, решая ее относительно численности выборки, получим следующие формулы:
для повторной выборки n =
для бесповторной выборки n = .

Кроме того, при статистических величинах с количественными признаками надо знать и выборочную дисперсию, но к началу расчетов и она не известна. Поэтому она принимается приближенно одним из следующих способов (в приоритетном порядке):

  1. Берется из предыдущих выборочных наблюдений;
  2. Используется правило, согласно которому в размахе вариации укладывается примерно шесть стандартных отклонений (, а так как , то отсюда );
  3. Используется правило «трех сигм», согласно которому в средней величине укладывается примерно 3 стандартных отклонения (; отсюда ).

При изучении не численных признаков, если даже нет приблизительных сведений о выборочной доле, принимается w = 0,5, что по соответствует выборочной дисперсии в максимальном размере Дв = 0,5*(1-0,5) = 0,25.

Предыдущая лекция…Следующая лекция…

Основные виды выборок в социологическом исследовании

На сегодняшний день основными видами выборки в социологических исследованиях являются следующие их виды:

Стихийная выборка. Здесь опрашиваются респонденты, которые являются наиболее доступными. Основными примерами стихийных выборок являются опросы в газетах или журналах, анкеты, которые были переданы респондентам на само заполнение, а также Интернет-опросы. Размер и состав стихийных выборок заранее является не известным. Он выявляется таким показателем, как активность респондентов;
Случайная выборка. Данный вид выборки является одним из наиболее строгих видов. В его основе лежит принцип вероятностного отбора. Основным условием возможности данного отбора является доступность для исследователя каждого из имеющихся компонентов генеральной совокупности. Из-за этого случайная выборка осуществляется только на довольно небольших по объему генеральных совокупностях, или уже на заключительном этапе отбора;
Механическая выборка. Данный вид выборки основывается на том, что традиционно отбор единиц в выборочную совокупность из генеральной, которая традиционно разбивается по какому-либо нейтральному признаку на одинаковые промежутки, происходит таким образом, что из каждой группы в выборку выбирается только одна единица;
Гнездовая выборка. Это такой вид выборки, при котором выбираемые объекты являются группой или гнездом более мелких единиц. Гнездо в свою очередь является единицей отбора высшей ступени, которая включает в себя более мелкие единицы низшей ступени. Примером гнезда могут являться населенные пункты, районы, дома и многое другое;

Квотная выборка. В данном случае отбор респондентов происходит целенаправленно

При этом важно соблюдать параметры квоты;
Многоступенчатая выборка. В данном случае отбор происходит в несколько этапов

Например, сначала выбираются в каком-либо городе предприятие, на предприятии выбирается цех, а уже непосредственно в цехах подбираются респонденты.

Как выбирать?

Есть несколько способов собрать репрезентативную выборку.

Простая случайная выборка (simple random sample)

Случайным образом выбираем объекты нашей генеральной совокупности. При этом чем больше случайных объектов выбираем, тем лучше наша выборка отражает свойства генеральной совокупности

На Примере 2: Идем на детскую площадку и опрашиваем всех, кто там есть. В результате получится, что среди опрошенных будут дети разного пола и возраста в разной пропорции. Например, мы спросили о любимом мультфильме мальчика пяти лет, девочку трех лет, девочку четырех лет, мальчика двух лет и.т.д.

Стратифицированная выборка (stratified sample)

  1. Разделяем нашу генеральную совокупность на группы (страты) на основе определенного признака/признаков. 
  2. Чтобы эти группы были равновероятно представлены в выборке, берем случайным образом элементы из каждой группы с равной вероятностью.

На Примере 2: делим детей по возрасту и полу, «идем» в группу «мальчики 5 лет» , случайно опрашиваем представителя данной группы, потом идет ко множеству «девочки 3 лет», случайно опрашиваем представительницу этой группы и т.д.

В таблице суммируются принципиальные различия между случайной и стратифицированной выборками:

Простая случайная выборка Стратифицированная выборка
Выбираем элементы из генеральной совокупности случайным образом Выбираем элементы из каждой группы (страты)
Чем больше берем элементов из генеральной совокупности, тем лучше наша выборка отражает особенности генеральной совокупности  Мы уже на основе определенных признаков разделили нашу генеральную совокупность, добавляем в каждую подгруппу по примерно равному количеству элементов. Так наша выборка будет хорошо отражать особенности генеральной совокупности 

Групповая выборка (cluster sample)

  1. Делим нашу генеральную совокупность на группы, но эти группы должны быть относительно похожи между собой (в качестве примера можем взять районы Москвы и считать, что в них примерно одинаковое число жителей)
  2. Выбираем только некоторые группы, которые нас интересуют.
  3. Из выбранных групп выбираем случайным образом элементы.

Чтобы еще лучше понять, чем отличается стратифицированная выборка от групповой, рассмотрим таблицу:

Стратифицированная выборка Групповая выборка
Выбираем элементы из каждой группы (страты) Выбираем элементы только из выбранных групп (страт)
Внутри группы элементы однородны, а между группами элементы различаются В пределах группы элементы разнородны, но при этом все группы имеют схожесть
Схема выборки для всех групп одна Схема выборки нужна только для выбранных групп
Повышает точность Повышает эффективность выборки, уменьшая стоимость

Сбор репрезентативной выборки — это нетривиальная задача, которая включает в себя выбор метода сбора и параметров сбора (например, подбор страт). Аккуратно собранная выборка — обязательное условие для проведения дальнейшего исследования

Использование нерепрезентативных данных приводит к ложным или неполным выводам, поэтому крайне важно обращать внимание, на каких данных проводилось то или иное исследование

Генеральная совокупность

Давайте разберемся, на что в первую очередь обращать внимание перед началом любой исследовательской или аналитической работы, какие вообще данные следует использовать,

Для начала нам нужно четко обозначить, для какого множества объектов мы хотели бы получить результаты экспериментов или исследований. То есть, что мы будем считать генеральной совокупностью нашего исследования.

Генеральная совокупность — это множество всех объектов, относительно которых предполагается делать выводы в рамках конкретного исследования. Генеральную совокупность составляют все объекты, которые отвечают всем заранее заданным параметрам.

Почему это важно? Разберем на конкретных примерах

Пример 1

Хотим узнать средний рост у космонавтов, находившихся в космическом полете более 180 дней. 

Так как под такое описание подходит небольшая группа людей (а именно космонавты, которые пробыли в полете более 180 дней), мы можем провести исследование с участием всех представителей этого класса. Они и будут составлять генеральную совокупность нашего исследования.

Пример 2

Хотим изучить, какой мультфильм является самым любимым у детей до 5 лет, живущих в Москве.

В данной ситуации абсолютно все дети в возрасте до 5 лет, которые живут в Москве, будут представлять генеральную совокупность для нашего исследования. 

Очевидно, что в исследовании из Примера 1 мы можем измерить рост каждого космонавта и получить желаемый результат. 

В Примере 2 все становится несколько затруднительнее: теоретически мы, конечно, можем опросить каждого ребенка из Москвы в возрасте до 5 лет, но это сложно реализуемая затея. 

Что тогда делать? Можно взять только определенную часть генеральной совокупности, то есть сформировать выборку для исследования, а затем обобщить результаты, полученные на этой выборке, на всю генеральную совокупность. 

Основные определения

Понятие выборки используется, когда надо изучить какие-либо свойства совокупности объектов. Свойства объектов можно разделить на качественные и количественные.

Пример 1

Пусть нам необходимо изучить совокупность партии сметаны. Тогда качественным признаком может служить срок её годности, а количественным процент содержания жиров в данной сметане.

Совокупность или выборка может быть разделена на генеральную и выборочную.

Определение 1

Генеральная совокупность — совокупность случайно отобранных объектов данного вида, над которыми проводят наблюдения с целью получения конкретных значений случайной величины, проводимых в неизменных условиях при изучении одной случайной величины данного вида.

Определение 2

Выборочная совокупность — часть отобранных объектов из генеральной совокупности.

С понятием совокупности также связано понятие объема данной совокупности.

Определение 3

Объем совокупности — число объектов этой совокупности.

Понятие объема совокупности относится и к выборочной, и к генеральной совокупности.

Пример 2

Пусть из партии 100 пачек масла для исследования выбрано 10 пачек. Тогда объем генеральной совокупности $N=100$, а объем выборки $n=10$.

Примечание 1

Исходя из первых двух определений, очевидно, что всегда выполняется неравенство $N>n$

Помимо этих двух совокупностей выделяют также репрезентативную или представительную выборку.

Определение 4

Репрезентативная (представительная) выборка — выборка, в которой все объекты выбраны случайно и генеральной совокупности, то есть каждый объект генеральной совокупности имеет одинаковую вероятность попасть в выборку.

Выборка также может быть повторной и бесповторной.

Определение 5

Повторная выборка — выборка, при которой выбранный объект возвращается обратно в генеральную совокупность перед выбором следующего объекта для исследования.

Определение 6

Бесповторная выборка — выборка, при которой объект не возвращается обратно в генеральную совокупность перед выбором очередного объекта для исследования.

Проблемы организации выборки в исследовании

Основной проблемой при проведении социологического исследования является определение количества составляющих ее единиц, которые позволят получить информацию в репрезентативном виде. Четких инструкций для расчета оптимального объема выборки не существует, так как он зависит от множества влияющих на него факторов. К ним относятся такие, как цели и задачи проводимого исследования, методики сбора информации, однородность данных, и требования, предъявляемые к их точности.

Замечание 2

По завершению исследования возможно определить пределы доверия полученным данным. Для этого проводится анализ распределения признаков генеральной совокупности выборки.

Ошибки в статистике

Статистика является очень мощным инструментом для исследований во всех областях человеческой деятельности. Однако иногда ее иронично называют самой точной из лженаук. Известно и ещё одно высказывание, приписываемое политику Дизраэли, согласно которому существует просто ложь, наглая ложь и статистика. С чем же связана такая репутация этой дисциплины?

Дело в том, что некоторые люди и организации часто манипулируют данными статистики, чтобы убедить других в своей правоте или преимуществах товара, которые они продают. Требуются определенные навыки, чтобы правильно пользоваться статистикой. Одна из самых распространенных ошибок – это неправильный выбор выборки.

В 1936 году перед президентскими выборами в США был проведен телефонный опрос, который показал, что с большим преимуществом победу должен одержать Альфред Лендон. Однако на выборах Франклин Рузвельт набрал почти вдвое больше голосов. Ошибка была связана с тем, что в те годы телефон могли позволить себе только богатые люди, которые в большинстве своем поддерживали Лендона. Однако бедные люди (а их, конечно же, больше, чем богатых) голосовали за Рузвельта.

Ещё один пример – это агитация в конце XIX века в США к службе на флоте. Пропагандисты в своей рекламе указывали, что, согласно статистике, смертность на флоте во время войны (испано-американской) составляет 0,09%, в то время как среди населения Нью-Йорка она равнялась 0,16%. Получалось, что служить на флоте в военное время безопаснее, чем жить мирной жизнью. Однако на самом деле причина таких цифр заключается в том, что во флот всегда отбирали молодых мужчин с хорошим здоровьем, которые не могли умереть от «старческих» болезней, в то время как в население Нью-Йорка входят больные и старые люди.

При указании среднего значения исследователь может использовать разные характеристики – среднее арифметическое, медиана, мода. При этом почти всегда среднее арифметическое несколько больше медианы. Именно поэтому большинство людей, узнающих о средней зарплате в стране, удивляются, так как они столько не зарабатывают. Правильнее ориентироваться на медианную зарплату.

Ну и наконец, нельзя забывать, что любая статистика может показать только корреляцию между двумя величинами, но это не всегда означает причинно-следственную связь. Так, известно, что чем больше в городе продается мороженого, тем больше в это же время людей тонет на пляжах. Означает ли это, что поедание мороженого увеличивает риск во время плавания? Нет. Дело в том, что оба этих показателя, продажи мороженого и количество утонувших, зависят от третьей величины – температуры в городе. Чем жарче на улице, тем большее количество людей ходят на пляж и тем больше мороженого продается в магазинах.

Обучающая и тестовая выборка

Обучающая выборка (training sample) — выборка, по которой производится настройка (оптимизация параметров) модели зависимости.

Если модель зависимости построена по обучающей выборке , то оценка качества этой модели, сделанная по той же выборке оказывается, как правило, оптимистически смещённой.
Это нежелательное явление называют переобучением.
На практике оно встречается очень часто.
Хорошую эмпирическую оценку качества построенной модели даёт её проверка на независимых данных, которые не использовались для обучения.

Тестовая (или контрольная) выборка (test sample) — выборка, по которой оценивается качество построенной модели. Если обучающая и тестовая выборки независимы, то оценка, сделанная по тестовой выборке, является несмещённой.

Оценку качества, сделанную по тестовой выборке, можно применить для выбора наилучшей модели.
Однако тогда она снова окажется оптимистически смещённой.
Для получения немсещённой оценки выбранной модели приходится выделять третью выборку.

Проверочная выборка (validation sample) — выборка, по которой осуществляется выбор наилучшей модели из множества моделей, построенных по обучающей выборке.

Виды выборок в социологическом исследовании

Существует три типа выборки, основанные на подходах к отбору единиц.

Отбор, проводимый на основе доступности и добровольности, называется стихийным. Однако представить качественную генеральную совокупность в результате данного вида отбора невозможно.

При проведении отбора случайного типа главным принципом является возможность попадания в выборочную совокупность для каждой единицы.

Квотный отбор основывается на построении модели генеральной совокупности, исходя из которой выбираются единицы наблюдения.

Также выборка классифицируется по нескольким видам:

  • Охват целевой аудитории – сплошной, и выборочное наблюдение;
  • Уровень – одноступенчатые и многоступенчатые выборки;
  • Степень случайности – случайные и детерминированные;
  • Процедура формирования – метод выбора случайных чисел и механический отбор.

Рассмотрим каждый из этих видов более подробно. При сплошном наблюдении, которое является генеральной совокупностью, в исследовании учитывается каждая единица отбора. При выборочном наблюдении характеристика всей совокупности дается по некоторой части наблюдаемых единиц.

Проведение одноступенчатой выборки предполагает проведение отбора респондентов для опроса из генеральной совокупности сразу. Многоступенчатая выборка меняет единицу отбора на каждой из ступеней. В данном случае единицами наблюдения являются объекты нижней ступени.

Случайные выборки основываются на совпадении вероятности выбора элемента исследования с вероятностью выбора любого другого элемента выборки. Детерминированные выборки включают в себя элементы без учета вероятности их появления.

Замечание 1

Метод выбора случайных чисел основан на возможности рассчитать вероятность выбора каждого элемента, участвующего в ней. Данный вид выборки считается наиболее достоверным. Механический отбор является вариацией случайного выбора, и представляет собою осуществление выборки из элементов через шаг отбора, или определенный интервал. Этот вид выборки удобен, его проще организовать. Однако влечет за собою требовательность к основе выборки.

Понятие и виды выборочного наблюдения

Выборочное наблюдение применяется, когда применение сплошного наблюдения физически невозможно из-за большого массива данных или экономически нецелесообразно. Физическая невозможность имеет место, например, при изучении пассажиропотоков, рыночных цен, семейных бюджетов. Экономическая нецелесообразность имеет место при оценке качества товаров, связанной с их уничтожением, например, дегустация, испытание кирпичей на прочность и т.п.

Статистические единицы, отобранные для наблюдения, составляют выборочную совокупность или выборку, а весь их массив — генеральную совокупность (ГС). При этом число единиц в выборке обозначают n, а во всей ГС — N. Отношение n/N называется относительный размер или доля выборки.

Качество результатов выборочного наблюдения зависит от репрезентативности выборки, то есть от того, насколько она представительна в ГС. Для обеспечения репрезентативности выборки необходимо соблюдать принцип случайности отбора единиц, который предполагает, что на включение единицы ГС в выборку не может повлиять какой-либо иной фактор кроме случая.

Существует 4 способа случайного отбора в выборку:

  1. Собственно случайный отбор или «метод лото», когда статистическим величинам присваиваются порядковые номера, заносимые на определенные предметы (например, бочонки), которые затем перемешиваются в некоторой емкости (например, в мешке) и выбираются наугад. На практике этот способ осуществляют с помощью генератора случайных чисел или математических таблиц случайных чисел.
  2. Механический отбор, согласно которому отбирается каждая (N/n)-я величина генеральной совокупности. Например, если она содержит 100 000 величин, а требуется выбрать 1 000, то в выборку попадет каждая 100 000 / 1000 = 100-я величина. Причем, если они не ранжированы, то первая выбирается наугад из первой сотни, а номера других будут на сотню больше. Например, если первой оказалась единица № 19, то следующей должна быть № 119, затем № 219, затем № 319 и т.д. Если единицы генеральной совокупности ранжированы, то первой выбирается № 50, затем № 150, затем № 250 и так далее.
  3. Отбор величин из неоднородного массива данных ведется стратифицированным (расслоенным) способом, когда генеральная совокупность предварительно разбивается на однородные группы, к которым применяется случайный или механический отбор.
  4. Особый способ составления выборки представляет собой серийный отбор, при котором случайно или механически выбирают не отдельные величины, а их серии (последовательности с какого-то номера по какой-то подряд), внутри которых ведут сплошное наблюдение.

Качество выборочных наблюдений зависит и от типа выборки: повторная или бесповторная. При повторном отборе попавшие в выборку статистические величины или их серии после использования возвращаются в генеральную совокупность, имея шанс попасть в новую выборку. При этом у всех величин генеральной совокупности одинаковая вероятность включения в выборку.Бесповторный отбор означает, что попавшие в выборку статистические величины или их серии после использования не возвращаются в генеральную совокупность, а потому для остальных величин последней повышается вероятность попадания в следующую выборку.

Бесповторный отбор дает более точные результаты, поэтому применяется чаще. Но есть ситуации, когда его применить нельзя (изучение пассажиропотоков, потребительского спроса и т.п.) и тогда ведется повторный отбор.

Зависимые и независимые выборки[]

При сравнении двух (и более) выборок важным параметром является их зависимость. Если можно установить гомоморфную пару (то есть, когда одному случаю из выборки X сооветствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках (и это основание взаимосвязи является важным для измеряемого на выборках признака), такие выборки называются зависимыми. Примеры зависимых выборок:

  • пары близнецов,
  • два измерения какого-либо признака до и после экспериментального воздействия,
  • мужья и жёны
  • и т. п.

В случае, если такая взаимосвязь между выборками отсутствует, то эти выборки считаются независимыми, например:

  • мужчины и женщины,
  • психологи и математики.

Соответственно, зависимые выборки всегда имеют одинаковый объём, а объём независимых может отличаться.

Сравнение выборок производится с помощью различных статистических критериев:

  • t-критерий Стьюдента
  • T-критерий Вилкоксона
  • U-критерий Манна-Уитни
  • Критерий знаков
  • и др.

Какова доля выборки в общей совокупности

Объём выборки — число случаев, включённых в выборку.

Объем формально называют большим или маленьким в зависимости от размеров генеральной совокупности. В обычных исследованиях объем от тридцати объектов считается большим.

Статистическая репрезентативность данных

Чтобы выборка правильно отражала генеральную совокупность, она должна обладать свойством репрезентативности.

Репрезентативность — это соответствие характеристик выборки генеральной совокупности в целом.

Одна и та же выборка может быть репрезентативной и нерепрезентативной по отношению к разным генеральным совокупностям.

Не стоит путать репрезентативность со статистической ошибкой выборки. Разница в том, что ошибки обычно связаны с размером набора: если уменьшить или увеличить охват объектов, её можно исправить. Нерепрезентативная выборка показывает те характеристики объектов, которые не требуются или которых не хватает для полного исследования.

К примеру, если в генеральной совокупности берут всех москвичей, а в выборке оказываются только автолюбители. Значит ли это, что все москвичи ездят на машине? Нет. Если увеличить количество автолюбителей, по ним можно судить обо всех москвичах? Тоже нет. Значит, выборка по отношению именно к этой генеральной совокупности нерепрезентативна.

Вероятностные методы выборки

Первый класс методов выборки известен как методы вероятностной выборки, поскольку каждый член совокупности имеет равную вероятность быть отобранным для включения в выборку.

Простая случайная выборка

Пример: мы помещаем имена каждого ученика в классе в шляпу и случайным образом вытягиваем имена, чтобы получить выборку учеников.

Преимущество: Простые случайные выборки обычно репрезентативны для интересующей нас совокупности , поскольку каждый член имеет равные шансы быть включенным в выборку.

Стратифицированная случайная выборка

Пример. Разделите всех учащихся в школе по их классам: первокурсников, второкурсников, младших и старших классов. Попросите 50 учащихся каждого класса заполнить анкету о школьных обедах.

Преимущество: стратифицированные случайные выборки обеспечивают включение в обследование представителей каждой группы генеральной совокупности.

Кластерная случайная выборка

Пример. Компания, организующая туры для наблюдения за китами, хочет опросить своих клиентов. Из десяти туров, которые они проводят один день, они случайным образом выбирают четыре тура и расспрашивают каждого клиента об их впечатлениях.

Преимущество: Кластерные случайные выборки включают каждого члена из некоторых групп, что полезно, когда каждая группа отражает совокупность в целом.

Систематическая случайная выборка

Пример: Учитель расставляет учеников в алфавитном порядке по их фамилиям, случайным образом выбирает начальную точку и выбирает каждого пятого ученика в выборку.

Преимущество: систематические случайные выборки обычно репрезентативны для интересующей нас совокупности , поскольку каждый член имеет равные шансы быть включенным в выборку.

Упорядоченный ряд и таблица частот

В ряде данных в таблице 1 числа приведены в произвольном порядке. Перепишем ряд так, чтобы все числа шли в неубывающем порядке, то есть от самого маленького к самому большому:

12, 12, 13, 13, 13, 14, 15, 16, 16, 17, 17, 18, 19, 19, 20, 20, 21, 24, 25, 25.

Такую запись называют упорядоченным рядом данных.

Его характеристики ничем не отличаются от изначальной выборки, однако с ним удобнее работать. С его помощью можно видеть, что ни одному ученику не удалось набрать 22 или 23 балла на тесте, но сразу двое учащихся дали 25 правильных ответов. На основе упорядоченного ряда данных несложно составить таблицу частот, в которой будет указано, как часто та или иная варианта выборки встречается в ряде. Выглядеть она будет так:

При составлении этой таблицы мы исключили из нее те варианты количества набранных баллов, частота которых равна нулю (от 0 до 12, 22 и 23).Заметим, что сумма чисел в нижней строке таблицы частот должна равняться объему выборки. Действительно,

2+3+1+1+2+2+1+2+2+1+1+2 = 20.

С помощью таблицы частот можно быстрее посчитать среднее арифметическое выборки. Для этого каждую варианту надо умножить на ее частоту, после чего сложить полученные результаты и поделить их на объем выборки:

(12•2+13•3+14•1+15•1+16•2+17•2+18•1+19•2+20•2+21•1+24•1+25•2):20 =

(24+39+14+15+32+34+18+38+40+42+24+50):20 = 349:20 = 17,45.

Невероятностные методы выборки

Другой класс методов выборки известен как методы невероятностной выборки, потому что не каждый член совокупности имеет равную вероятность быть отобранным для включения в выборку.

Этот тип метода выборки иногда используется, потому что он намного дешевле и удобнее по сравнению с методами вероятностной выборки. Он часто используется во время исследовательского анализа, когда исследователи просто хотят получить первоначальное представление о популяции.

Однако выборки, полученные с помощью этих методов выборки, нельзя использовать для выводов о совокупностях, из которых они получены, поскольку обычно они не являются репрезентативными выборками.

Образец удобства

Пример: Исследователь стоит днем перед библиотекой и опрашивает прохожих.

Недостаток: место и время суток будут влиять на результаты. Более чем вероятно, что выборка будет страдать от систематической ошибки недостаточного охвата, поскольку некоторые люди (например, те, кто работает в течение дня) не будут представлены в выборке в достаточной степени.

Образец добровольного ответа

Пример: радиоведущий просит слушателей выйти в интернет и пройти опрос на его сайте.

Недостаток: люди, которые добровольно ответят , скорее всего, будут иметь более сильное мнение (положительное или отрицательное), чем остальная часть населения, что делает их нерепрезентативной выборкой. При использовании этого метода выборки выборка, скорее всего, будет страдать от систематической ошибки , связанной с отсутствием ответов — просто определенные группы людей с меньшей вероятностью дадут ответы.

Образец снежного кома

Пример: Исследователи проводят исследование людей с редкими заболеваниями, но трудно найти людей, которые действительно болеют этим заболеванием. Однако, если они могут найти только несколько первоначальных людей для участия в исследовании, они могут попросить их набрать других людей, которых они могут знать, через частную группу поддержки или с помощью других средств.

Недостаток: вероятно возникновение систематической ошибки выборки. Поскольку первоначальные испытуемые набирают дополнительных испытуемых, вполне вероятно, что многие из испытуемых будут иметь схожие черты или характеристики, которые могут быть нерепрезентативными для большей изучаемой группы. Таким образом, результаты выборки не могут быть экстраполированы на население.

Целевой образец

Пример: Исследователи хотят узнать мнение людей в городе о потенциальном новом спортзале для скалолазания, размещенном на городской площади, поэтому они намеренно ищут людей, которые тусуются в других спортзалах для скалолазания по всему городу.

Недостаток: отдельные лица в выборке вряд ли будут репрезентативными для всего населения. Таким образом, результаты выборки не могут быть экстраполированы на население.

Неслучайная выборка

Эту выборку еще называют невероятностной выборкой. В такой выборке отбор из генеральной совокупности производится не случайным образом. В этом случае предвзятость самого выбирающего сильно влияет на выборочную совокупность.

Стихийная выборка (volunteer sampling)

Это наиболее часто используемая неслучайная выборка. Примером этой выборки может стать опрос в газете, в журнале или интернет-опрос. Такая выборка сильно ограничена в плане репрезентативности. Потому что таким образом в лучшем случае можно довольствоваться частичной аудиторией данного издания или сайта.

Такого рода выборка применяется, если невозможно собрать целевую аудиторию или нельзя напрямую задавать нужные вам вопросы. Это может быть вопросы об употреблении наркотических средств, о случайных связях или вопросы личного характера. Одним словом, когда нужно обеспечивать анонимность респондента приходится прибегать к стихийной выборке. Но если придется генерализировать и делать выводы относительно генеральной совокупности, то такая выборка самая малополезная.

Удобная выборка (convenience sampling)

Другим видом неслучайной выборки является удобная выборка. Например, вам нужно знать привычки клиентов в определенной местности. Поэтому можно встать у входа какого-то торгового центра и опросить первые 30 клиентов. Такой опрос тоже сильно ограничен. Потому что многие откажутся давать интервью и в числе их скорее окажутся именно те, чья позиция представляла бы интересы многих клиентов. Такая выборка не охватывает разные возрастные и социальные категории людей. Значит, результат такого опроса тоже трудно генерализировать.

Квотная выборка (quota sampling)

При такой выборке интервьюеру дается инструкция относительно респондентов. Здесь учитывается возрастной интервал, социальный статус и возможно, еще другие параметры. На примере торгового центра можно одного интервьюера «закрепить» за магазином дорогой одежды или аксессуаров, другого поставить около магазина детской одежды, третьего в магазине бытовой техники, а четвертого интервьюера где-то около магазина продающего продукцию масс-маркет. Причем нужно проинструктировать, чтобы мужчины и женщины составили половину респондентов.

Метод снежного кома (snowball sampling)

У каждого первого респондента спрашивают контакты его друзей и знакомых, кто подходит под условия целевой аудитории, и согласились бы принимать участие в опросе. Затем, встретившись с ними, берут контакты их друзей и «выходят» на них. Таким образом, за исключением первого респондента всегда информация получается непосредственно из «нужных» людей. Такой метод применяется, если нужно опросит «труднодоступных» респондентов. К ним относятся люди определенных социальных слоев, имеющих высокий доход, профессионалов в определенной области, или люди, имеющие схожие увлечения.

Размах выборки

Следующий важная характеристика ряда данных – это размах выборки.

Если выборка представлена в виде упорядоченного ряда данных, то достаточно вычесть из последнего числа ряда первое число. Так, размах выборки результатов теста в классе равен:

25 – 12 = 13,

так как самые лучшие ученики смогли решить все 25 заданий, а наихудший учащийся ответил правильно только на 13 вопросов.

Размах выборки характеризует стабильность, однородность исследуемых свойств. Например, пусть два спортсмена-стрелка в ходе соревнований производят по 5 выстрелов по круговой мишени, где за попадание начисляют от 0 до 10 очков. Первый стрелок показал результаты 8, 9, 9, 8, 9 очков. Второй же спортсмен в своих попытках показал результаты 7, 10, 10, 6, 10. Средние арифметические этих рядов равны:

(8+9+9+8+9):5 = 43:5 = 8,6;

(7+10+10+6+10):5 = 43:5 = 8,6.

Получается, что в среднем оба стрелка стреляют одинаково точно, однако первый спортсмен демонстрирует более стабильные результаты. У его выборки размах равен

9 – 8 = 1,

в то время как размах выборки второго спортсмена равен

10 – 6 = 4.

Размах выборки может быть очень важен в метеорологии. Например, в Алма-Ате и Амстердаме средняя температура в течение года почти одинакова и составляет 10°С. Однако в Алма-Ате в январе и феврале иногда фиксируются температуры ниже -30°С, в то время как в Амстердаме за всю историю наблюдений она никогда не падала ниже -20°С.

Репрезентативность[]

Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной.

Пример нерепрезентативной выборки

В США одним из наиболее известных исторических примеров нерепрезентативной выборки считается случай, происшедший во время президентских выборов в 1936 году. Журнал «Литрери Дайджест», успешно прогнозировавший события нескольких предшествующих выборов, ошибся в своих предсказаниях, разослав десять миллионов пробных бюллетеней своим подписчикам, людям, выбранным по телефонным книгам всей страны, и людям из регистрационных списков автомобилей. В 25 % вернувшихся бюллетеней (почти 2,5 миллиона) голоса были распределены следующим образом:

  • 57 % отдавали предпочтение кандидату-республиканцу Альфу Лэндону
  • 40 % выбрали действующего в то время президента-демократа Франклина Рузвельта

На действительных же выборах, как известно, победил Рузвельт, набрав более 60 % голосов.
Ошибка «Литрери Дайджест» заключалась в следующем: желая увеличить репрезентативность выборки, — так как им было известно, что большинство их подписчиков считают себя республиканцами, — они расширили выборку за счёт людей, выбранных из телефонных книг и регистрационных списков. Однако они не учли современных им реалий и в действительности набрали ещё больше республиканцев: во время Великой депрессии обладать телефонами и автомобилями могли себе позволить в основном представители среднего и верхнего класса (то есть большинство республиканцев, а не демократов).

Понравилась статья? Поделиться с друзьями:
Карта знаний
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: