Понятие репрезентативной выборки — ключевой фактор успеха в любом маркетинговом исследовании. При исследованиях рынка B2C, в частности, репрезентативность выборки напрямую влияет на точность результатов. Однако не стоит думать, что большой размер гарантирует качество данных.
В этой статье обсуждаем правила, способы и критерии репрезентативной выборки, и рассказываем, как рассчитать её самостоятельно.
Содержание
В этой статье:
Что такое репрезентативная выборка и зачем её делать
Репрезентативная выборка точно представляет, отражает или «похожа» на выбранную вами совокупность группы людей. Она должна быть беспристрастным отражением того, что в общем представляет собой население. Существует множество способов оценки репрезентативности — пол, возраст, социально-экономический статус, профессия, образование, хронические заболевания, даже личность или владение домашним животным. Все зависит от того, насколько подробную информацию вы хотите получить, каков масштаб вашего исследования и какая информация о населении вам доступна.
Где используется репрезентативная выборка? Пример — маркетинг, психология, политика, антропология, образование и так далее. С их помощью можно проводить анализ больших групп людей, не прибегая при этом к анкетированию каждого. Такое построение исследования экономит время, деньги и ресурсы, а ещё позволяет собрать достоверные данные всего лишь с незначительной погрешностью.
Благодаря выборке вам не придётся анкетировать каждого человека — если вы соберёте её правильно, то информация будет исчерпывающей и разносторонней.
Рассмотри на примере: если по статистике большинство искусствоведов в популяции — женщины, а у вас в списке одни мужчины, то его нельзя считать действительным — группа не имеет тех же характеристик, что и большая популяция. В этом случае вы не сможете сделать широкое заявление об искусствоведах на основе ваших результатов, потому что подборка существенно отличается от реальной ситуации в популяции.
Используя репрезентативную выборку, которая составлена по правилам, можно достичь корректных данных.
Среди репрезентативных выборок больше точных результатов, но при этом их сложнее всего провести.
Как составить репрезентативную выборку
Наиболее широко распространены два вида методов:
-
Вероятностный
Это методы, основанные на теории вероятности, при которых аналитики или исследователи собирают подборку из крупной совокупности. Чтобы такая репрезентативная выборка работала, есть критерий: участники в ней должны быть случайными людьми.
Отбор хаотичный, а это гарантирует, что образцы разных демографических групп имеют примерно одинаковые шансы туда попасть.
-
Невероятностный
При использовании этой группы методов аналитики и исследователи производят отбор в субъективном порядке, а не случайным образом. В отличие от первого варианта, сюда имеют шанс попасть далеко не все представители разных групп.
Исследователи могут определить интересующие их переменные, такие как местность, возраст, раса, пол и несколько других условий. Зная эти атрибуты ещё до получения информации, они имеют возможность создать репрезентативную выборку, идеально соответствующую их требованиям. Тем не менее, важно не создать неинформативную подборку, которая пройдёт мимо важных данных. Главная цель в том, чтобы в ходе исследования были получены максимально точные данные.
Какой размер выборки нужен
Он немаловажен и используется для получения точных, статистически значимых результатов и успешного проведения исследования.
Если ваша выборка слишком мала, в ней будет непропорционально большое количество людей, которые ведут себя необычно или как аутсайдера. Это искажает результаты, и объективная картина не складывается.
Если же она слишком большая, исследование становится сложным, дорогим и трудоёмким. И хотя результаты получаются более точными, затраты перевешивают преимущества.
Этап 1: Определите переменные размера выборки
Перед тем как рассчитать размер выборки, нужно определить несколько вещей о целевой совокупности и уровне погрешности, к которому вы готовы, и ознакомиться с некоторыми понятиями:
-
Размер популяции
О каком количестве людей в целом вы говорите? Чтобы выяснить это, нужно чётко определить, кто подходит и не подходит к вашей группе. Например, если вы хотите использовать информацию о владельцах собак, включите в группу всех, кто в какой-то момент времени имел хотя бы одну собаку (а ещё вы можете включить или исключить тех, кто имел собаку в прошлом, в зависимости от цели исследования).
Обычно получается неизвестное число или примерный диапазон, поэтому не расстраивайтесь, если не получается определить точно.
-
Предел погрешности (доверительный интервал)
Ошибки неизбежны — вопрос в том, сколько ошибок вы готовы допустить. Предел погрешности, он же доверительный интервал, выражается в категориях средних чисел. Вы можете установить, насколько велика разница между средним числом вашей выборки и средним числом вашей популяции.
Хороший пример графика с таким интервалом можно часто увидеть на иностранном телевидении. Он выглядит примерно следующим образом: «68% избирателей сказали "да" предложению A, погрешность +/- 5%».
-
Уровень уверенности
Он определяет, насколько вы уверены в том, что фактическое среднее значение находится в пределах погрешности. Наиболее распространенными являются 90%, 95% и 99% уверенности.
-
Стандартное отклонение
На этом этапе вам нужно оценить, насколько полученные ответы будут отличаться друг от друга и от среднего числа. Если вы ещё не проводили исследование, воспользуйтесь величиной стандартного отклонения 0,5.
Этап 2: Расчёт объёма выборки
Теперь, когда у вас есть ответы на шаги 1-4, вы готовы рассчитать необходимый размер выборки. Это можно сделать с помощью онлайн-калькулятора и или самостоятельно, если вы большой любитель математики.
-
Найдите свою Z-score
Далее вам нужно преобразовать ваш уровень уверенности в Z-оценку (индекс стандартного отклонения). Вот как они соотносятся с уровнями уверенности, которые чаще всего выбирают при исследованиях:
90% - Z-Score = 1,645
95% - Z-Score = 1,96
99% - Z-балл = 2,576
Если вы выбрали другой уровень доверия, используйте эту таблицу, чтобы найти свой балл.
-
Он выдаст вам подходящую величину всего за пару секунд.
Ошибки в работе с репрезентативной выборкой
Основная ошибка — предвзятость при отборе выборки. Она может проявляться по-разному:
-
Слишком удобная выборка
В неё входят респонденты, которых легче отобрать или которые с наибольшей вероятностью ответят. Такая селекция не будет репрезентативной — в неё не попадут незаинтересованные люди. Хороший пример — выборки из онлайн-панелей.
На подобные поп-апы кликают люди, которые заинтересованы в участии в опросах. При этом на них не кликают те, кто потенциально является частью целевой группы, но не видел панель или не имеет выхода в Интернет. Группа из предвзятых респондентов не может считаться актуальной.
-
Недостаточный охват
Так происходит, когда не получается включить в выборку всю целевую популяцию. Многие платформы стараются повысить охваты, но факт остается фактом: некоторые демографические группы оказываются недопредставленными.
Например, трудно проводить онлайн-исследования, ориентированные на китайскоязычное население России, без использования гибридного подхода к сбору данных, который позволяет охватить не ассимилированное иноязычное население. Эта группа обычно недопредставлена при опросах в большинстве онлайн-панелей.
-
Игнорирование
Не респонденты, как правило, отличаются от респондентов, поэтому их отсутствие в окончательной выборке затрудняет обобщение результатов на всю целевую совокупность. Вот почему для получения реального результата гораздо важнее дизайн исследования, чем количество опрашиваемых.
Как нарушают репрезентативность
Рассмотрим такую ситуацию: мы хотим узнать, какие конфеты в нашем офисе пользуются большей популярностью — шоколадные или леденцы. Для этого мы сделаем группу из 200 сотрудников, просто 130 из них будут женщинами, а 70 — мужчинами. Если условия репрезентативной выборки не соблюдаются, то пазл не складывается, а картина выйдет искажённой.
И хотя чем шире выборка, тем выше вероятность, что мы получим реальный результат, никаких гарантий нет.
Здесь большую важность имеет рамка опроса, или список, из которого отбирались опрашиваемые. Поэтому обратите особое внимание на то, чтобы в списке были в большом количестве представлены люди из вашей целевой аудитории — результат будет для вас более релевантным.
Подводим итог
Репрезентативная выборка данных — это, простыми словами, статистическая картина, которая используется, чтобы сделать выводы о более широкой популяции. И хотя можно получить точные результаты на основе случайной группы людей, репрезентативная подборка имеет те же демографические характеристики, что и более широкая популяция. Такие выборки сложнее создать, но они ведут к более точному анализу, особенно при проведении большого исследования.