Генеральная и выборочная совокупности, выборки

Что такое генеральная совокупность и выборка?

Что такое статистическая выборка из генеральной совокупности данных

Чтобы получить верную информацию об общем, в аналитической статистике изучают его частное. Этот метод называют статистической выборкой из генеральной совокупности данных. 

Генеральная совокупность – это весь набор объектов, о которых необходимо получить информацию.

К примеру, это могут быть все жители Москвы за 1900-ый год, все российские компании одной отрасли производства за 2000-ый год и так далее. Иначе говоря, это суммарная численность объектов исследования, обладающая набором определённых признаков и ограниченная в пространстве и времени.

Осторожно! Если преподаватель обнаружит плагиат в работе, не избежать крупных проблем (вплоть до отчисления). Если нет возможности написать самому, закажите тут

Однако не всегда можно получить данные обо всех объектах сразу. Исходя из экономии времени и средств, проводится исследование части набора, которая называется выборкой.

Выборка – это небольшой набор объектов, который извлекают из генеральной совокупности.  

Из генеральной совокупности разными способами по разным признакам можно отобрать бесконечное множество выборок.

Понятия, как соотносятся между собой

Математически генеральная совокупность обозначается как N, выборочная – как n. Таким образом, случайная выборка n1, n2, …, nx – это результат последовательных и независимых наблюдений над случайной величиной N.

Как выбирать?

Есть несколько способов собрать репрезентативную выборку.

Простая случайная выборка (simple random sample)

Случайным образом выбираем объекты нашей генеральной совокупности. При этом чем больше случайных объектов выбираем, тем лучше наша выборка отражает свойства генеральной совокупности

На Примере 2: Идем на детскую площадку и опрашиваем всех, кто там есть. В результате получится, что среди опрошенных будут дети разного пола и возраста в разной пропорции. Например, мы спросили о любимом мультфильме мальчика пяти лет, девочку трех лет, девочку четырех лет, мальчика двух лет и.т.д.

Стратифицированная выборка (stratified sample)

  1. Разделяем нашу генеральную совокупность на группы (страты) на основе определенного признака/признаков. 
  2. Чтобы эти группы были равновероятно представлены в выборке, берем случайным образом элементы из каждой группы с равной вероятностью.

На Примере 2: делим детей по возрасту и полу, «идем» в группу «мальчики 5 лет» , случайно опрашиваем представителя данной группы, потом идет ко множеству «девочки 3 лет», случайно опрашиваем представительницу этой группы и т.д.

В таблице суммируются принципиальные различия между случайной и стратифицированной выборками:

Простая случайная выборка Стратифицированная выборка
Выбираем элементы из генеральной совокупности случайным образом Выбираем элементы из каждой группы (страты)
Чем больше берем элементов из генеральной совокупности, тем лучше наша выборка отражает особенности генеральной совокупности  Мы уже на основе определенных признаков разделили нашу генеральную совокупность, добавляем в каждую подгруппу по примерно равному количеству элементов. Так наша выборка будет хорошо отражать особенности генеральной совокупности 

Групповая выборка (cluster sample)

  1. Делим нашу генеральную совокупность на группы, но эти группы должны быть относительно похожи между собой (в качестве примера можем взять районы Москвы и считать, что в них примерно одинаковое число жителей)
  2. Выбираем только некоторые группы, которые нас интересуют.
  3. Из выбранных групп выбираем случайным образом элементы.

Чтобы еще лучше понять, чем отличается стратифицированная выборка от групповой, рассмотрим таблицу:

Стратифицированная выборка Групповая выборка
Выбираем элементы из каждой группы (страты) Выбираем элементы только из выбранных групп (страт)
Внутри группы элементы однородны, а между группами элементы различаются В пределах группы элементы разнородны, но при этом все группы имеют схожесть
Схема выборки для всех групп одна Схема выборки нужна только для выбранных групп
Повышает точность Повышает эффективность выборки, уменьшая стоимость

Сбор репрезентативной выборки — это нетривиальная задача, которая включает в себя выбор метода сбора и параметров сбора (например, подбор страт). Аккуратно собранная выборка — обязательное условие для проведения дальнейшего исследования

Использование нерепрезентативных данных приводит к ложным или неполным выводам, поэтому крайне важно обращать внимание, на каких данных проводилось то или иное исследование

Зависимые и независимые выборки

При сравнении двух (и более) выборок важным параметром является их зависимость. Если можно установить гомоморфную пару (то есть, когда одному случаю из выборки X соответствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках (и это основание взаимосвязи является важным для измеряемого на выборках признака), такие выборки называются зависимыми. Примеры зависимых выборок:

·пары близнецов,

·два измерения какого-либо признака до и после экспериментального воздействия,

·мужья и жёны

·и т. п.

В случае, если такая взаимосвязь между выборками отсутствует, то эти выборки считаются независимыми, например:

·мужчины и женщины,

·психологи и математики.

Соответственно, зависимые выборки всегда имеют одинаковый объём, а объём независимых может отличаться.

Сравнение выборок производится с помощью различных статистических критериев:

·t-критерий Стьюдента

·Критерий Уилкоксона

·U-критерий Манна-Уитни

·Критерий знаков

·и др.

Основные определения

Понятие выборки используется, когда надо изучить какие-либо свойства совокупности объектов. Свойства объектов можно разделить на качественные и количественные.

Пример 1

Пусть нам необходимо изучить совокупность партии сметаны. Тогда качественным признаком может служить срок её годности, а количественным процент содержания жиров в данной сметане.

Совокупность или выборка может быть разделена на генеральную и выборочную.

Определение 1

Генеральная совокупность — совокупность случайно отобранных объектов данного вида, над которыми проводят наблюдения с целью получения конкретных значений случайной величины, проводимых в неизменных условиях при изучении одной случайной величины данного вида.

Определение 2

Выборочная совокупность — часть отобранных объектов из генеральной совокупности.

С понятием совокупности также связано понятие объема данной совокупности.

Определение 3

Объем совокупности — число объектов этой совокупности.

Понятие объема совокупности относится и к выборочной, и к генеральной совокупности.

Пример 2

Пусть из партии 100 пачек масла для исследования выбрано 10 пачек. Тогда объем генеральной совокупности $N=100$, а объем выборки $n=10$.

Примечание 1

Исходя из первых двух определений, очевидно, что всегда выполняется неравенство $N>n$

Помимо этих двух совокупностей выделяют также репрезентативную или представительную выборку.

Определение 4

Репрезентативная (представительная) выборка — выборка, в которой все объекты выбраны случайно и генеральной совокупности, то есть каждый объект генеральной совокупности имеет одинаковую вероятность попасть в выборку.

Выборка также может быть повторной и бесповторной.

Определение 5

Повторная выборка — выборка, при которой выбранный объект возвращается обратно в генеральную совокупность перед выбором следующего объекта для исследования.

Определение 6

Бесповторная выборка — выборка, при которой объект не возвращается обратно в генеральную совокупность перед выбором очередного объекта для исследования.

Стратегии построения групп

Отбор групп для их участия в психологическом эксперименте осуществляется с помощью различных стратегий, которые нужны для того, чтобы обеспечить максимально возможное соблюдение внутренней и внешней валидности.

·Рандомизация (случайный отбор)

·Попарный отбор

·Стратометрический отбор

·Приближённое моделирование

·Привлечение реальных групп

Рандомизация, или случайный отбор, используется для создания простых случайных выборок. Использование такой выборки основывается на предположении, что каждый член популяции с равной вероятностью может попасть в выборку. Например, чтобы сделать случайную выборку из 100 студентов вуза, можно сложить бумажки с именами всех студентов вуза в шляпу, а затем достать из неё 100 бумажек — это будет случайным отбором (Гудвин Дж., с. 147).

Попарный отбор — стратегия построения групп выборки, при котором группы испытуемых составляются из субъектов, эквивалентных по значимым для эксперимента побочным параметрам. Данная стратегия эффективна для экспериментов с использованием экспериментальных и контрольных групп с лучшим вариантом — привлечением близнецовых пар (моно- и дизиготных), так как позволяет создать…

Стратометрический отбор — рандомизация с выделением страт (или кластеров). При данном способе формирования выборки генеральная совокупность делится на группы (страты), обладающие определёнными характеристиками (пол, возраст, политические предпочтения, образование, уровень доходов и др.), и отбираются испытуемые с соответствующими характеристиками.

Приближённое моделирование — составление ограниченных выборок и обобщение выводов об этой выборке на более широкую популяцию. Например, при участии в исследовании студентов 2-го курса университета, данные этого исследования распространяются на «людей в возрасте от 17 до 21 года». Допустимость подобных обобщений крайне ограничена.

Приближенное моделирование – формирование модели, которая для четко оговоренного класса систем (процессов) описывает его поведение (или нужные явления) с приемлемой точностью.

Двухвыборочный t-критерий для независимых выборок

Для двух
несвязанных выборок(наблюдения не относятся к одной и той же группе
объектов ) возможны два варианта расчета:

    • когда дисперсии известны

    • когда дисперсии неизвестны, но равны друг
      другу.

  1. Предварительно проверяется нормальность закона
    распределения по одному из критериев согласия.

  2. Рассчитывается средне арифметические значенияидля
    каждой выборки по формулегде–
    значение
    i-го
    результата наблюдения.

  3. Рассчитывается-
    эмпирическое значение критерия Стьюдента:

Гдеквадратичного отклонения. Здесьи
оценки дисперсий.

Рассмотрим
сначала равночисленные выборки. В этом случае
В случае наравночисленных выборок,
выражение

В обоих случаев подсчет числа
степеней свободы осуществляется по формуламПонятно, что при численном равенстве
выборок

Эмпирическое значениекритерия
Стьюдента сравнивается с критическим значением(по таблице 1
приложения) для данного числа степеней свободы.

Нулевая
гипотеза
при
заданном уровне значимостипринимается,
если эмпирическое значение
.

Пример рассчитаем на лабораторной работе.

Пример.Психолог
измерял время сложной сенсомоторной реакции выбора (в мс) в
контрольной и экспериментальных группах. В экспериментальную группу
(Х) входило 9 спортсменов высокой квалификации. Контрольной группой
(Y) являлись 8 человек, активно не занимающиеся спортом. Психолог
приверяет гипотезу о том , что средняя скорость сложной
сенсомоторной реакции выбора у спортсменов выше, чем та же величина
у людей, не занимающихся спортом.



Группы


Отклонения от среднего


Квадраты отклонений

       

По таблице приложения для данного числа степеней
находим

Строим ось значимости

Под связанными выборками понимаются наблюдения для
одной группы объектов, причем все наблюдения попарно связаны с
каждый объектом исследования и характеризуют его состояние до
воздействия и после воздействия некоторого фактора.

Данные в выборке измерены по шкале интервалов
или по шкале отношений

Сравниваемые данные должны иметь нормальный
закон распределения

Сравниваемых выборок две для оной группы
объектов наблюдения, причем имеет место парность наблюдений
в выборках.


1.

Предварительно проверяется нормальность закона
распределения по одному из критериев согласия.


2.

Рассчитывается(i=1..n)
– попарные разности вариант,ирезультаты
измерений дляi-го
объекта до и после воздействия некоторого фактора. Величинубудем
считать независимой для разных объектов и нормально распределенной


3.

Рассчитываются (лучше в табличной форме): сумма
попарных разностейи
вспомогательные параметрыи.


4.

Рассчитывается-
эмпирическое значение критериястепенями
свободы по формуле

Где n –
численность выборки.

5.Найденное
эмпирическое значение
критерия
Стьюдента сравнивается с критическим значением(по
таблице 1 приложения) для данного числа степеней свободы.Нулевая гипотезапри
заданном уровне значимостипринимается,
если эмпирическое значение
.

Критическое значение для выбранной вероятности и
заданного числа степеней свободы можно найти по встроенной в Excel
функции СТЬЮДРАСПОБР.

Пример.Психолог
предположил, что в результате тренировки, время решения
эквивалентных задач (т.е. имеющих один и тот же алгоритм решения )
будет значительно уменьшаться. Для проверки гипотезы у восьми
испытуемых сравнивалось время решения (в минутах) первой и третьей
задачи.

Решение задачи
представим в таблице.


Номер испытуемого


1 задача


3 задача


1


4,0


3,0


1


10


2


3,5


3,0


0,5


0,25


3


4,1


3,8


0,3


0,09


4


5,5


2,1


3,4


11,56


5


4,6


4,9


-0,3


0,09


6


6,0


5,3


0,7


0,49


7


5,1


3,1


2,0


4


8


4,3


27


1,6


2,56


Суммы


37,1


27,9


9,2


20,04

Число степеней свободы=8-1=7.
По таблице Приложения находим

Строим ось значимости

Т.о. на 5% уровне значимости,
первоначальное предположение подтвердилось, действительно, среднее
время решения 3-ей задачи, существенно меньше времени решения 1-ой
задачи. В терминах статистических гипотез полученный результат будет
звучать так: на5% уровне гипотеза Н0 отклоняется и принимается
гипотеза Н1 о различиях.
Критерий
Фишера.

Критерий используется для сравнения дисперсий двух
выборок с нормальным распределением.
Сравнения
дисперсий двух выборок производятся по отношению большей по величине
дисперсии(записывается в числителе) к меньшей (записывается в
знаменателе). Поэтому значения критерия больше или равно 1,0.

Гипотезы

:
Дисперсия выборке 1 не отличается от дисперсии в выборке 2:
Дисперсия выборке 1 отличается от дисперсии в выборке 2
ОграниченияДанные в выборках должны быть
измерены по шкале интервалов или по шкале отношений.Обе сравниваемые выборки должны
иметь нормальный закон распределения.
 

Генеральная совокупность

Давайте разберемся, на что в первую очередь обращать внимание перед началом любой исследовательской или аналитической работы, какие вообще данные следует использовать,

Для начала нам нужно четко обозначить, для какого множества объектов мы хотели бы получить результаты экспериментов или исследований. То есть, что мы будем считать генеральной совокупностью нашего исследования.

Генеральная совокупность — это множество всех объектов, относительно которых предполагается делать выводы в рамках конкретного исследования. Генеральную совокупность составляют все объекты, которые отвечают всем заранее заданным параметрам.

Почему это важно? Разберем на конкретных примерах

Пример 1

Хотим узнать средний рост у космонавтов, находившихся в космическом полете более 180 дней. 

Так как под такое описание подходит небольшая группа людей (а именно космонавты, которые пробыли в полете более 180 дней), мы можем провести исследование с участием всех представителей этого класса. Они и будут составлять генеральную совокупность нашего исследования.

Пример 2

Хотим изучить, какой мультфильм является самым любимым у детей до 5 лет, живущих в Москве.

В данной ситуации абсолютно все дети в возрасте до 5 лет, которые живут в Москве, будут представлять генеральную совокупность для нашего исследования. 

Очевидно, что в исследовании из Примера 1 мы можем измерить рост каждого космонавта и получить желаемый результат. 

В Примере 2 все становится несколько затруднительнее: теоретически мы, конечно, можем опросить каждого ребенка из Москвы в возрасте до 5 лет, но это сложно реализуемая затея. 

Что тогда делать? Можно взять только определенную часть генеральной совокупности, то есть сформировать выборку для исследования, а затем обобщить результаты, полученные на этой выборке, на всю генеральную совокупность. 

Какова доля выборки в общей совокупности

Объём выборки — число случаев, включённых в выборку.

Объем формально называют большим или маленьким в зависимости от размеров генеральной совокупности. В обычных исследованиях объем от тридцати объектов считается большим.

Статистическая репрезентативность данных

Чтобы выборка правильно отражала генеральную совокупность, она должна обладать свойством репрезентативности.

Репрезентативность — это соответствие характеристик выборки генеральной совокупности в целом.

Одна и та же выборка может быть репрезентативной и нерепрезентативной по отношению к разным генеральным совокупностям.

Не стоит путать репрезентативность со статистической ошибкой выборки. Разница в том, что ошибки обычно связаны с размером набора: если уменьшить или увеличить охват объектов, её можно исправить. Нерепрезентативная выборка показывает те характеристики объектов, которые не требуются или которых не хватает для полного исследования.

К примеру, если в генеральной совокупности берут всех москвичей, а в выборке оказываются только автолюбители. Значит ли это, что все москвичи ездят на машине? Нет. Если увеличить количество автолюбителей, по ним можно судить обо всех москвичах? Тоже нет. Значит, выборка по отношению именно к этой генеральной совокупности нерепрезентативна.

Выборка и репрезентативность

Собрать выборку можно бесконечным количеством способов. Если говорить о нашем «детском опросе», то можно опросить только четырёхлетних детей, которые посещают курсы японского языка. Однако понятно, что в таком случае мы получим результаты, которые маловероятно можно обобщить на генеральную совокупность.

Как же собрать «хорошую» выборку, то есть, такую выборку, чтобы она отражала все свойства нашей генеральной совокупности? В Примере 2 необходимо задать вопрос о любимом мультике представителям всех «категорий» нашей генеральной совокупности в равных пропорциях, то есть помнить про разный возраст, пол и другие характеристик детей. Точность и полнота признаков, которые можно извлечь из выборки, называют её репрезентативностью.

Репрезентативная выборка — это такая выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, что и в этой генеральной совокупности.

Понравилась статья? Поделиться с друзьями:
Карта знаний
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: