О РИТЕЙЛ-АУДИТЕ
Реальная жизненная ситуация, по данным ритейл аудита численная дистрибуция продукта X составляет в городе Екатеринбург 30%, тогда как по вашим внутренним данным она не может быть меньше 40%. Ваша задача определить какие же данные верны. И для этого достаточно провести дистрибуционный чек и сравнить данные о дистрибуции полученные по результатам дистрибуционного чека с данными ритейл-аудита.
Для сравнения надо использовать метод основанный на распределении Стьюдента (t-распределении) для независимых выборок.
При его применении необходимо, чтобы исходные данные имели нормальное распределение и соблюдалось условие равенства (гомоскедастичности) дисперсий. Те вначале, перед тем, как использовать распределение Стьюдента надо воспользоваться F-критерием Фишера (нулевой является гипотеза об одинаковости дисперсии исследуемых выборок):
, где
– дисперсия выборок,
- большая дисперсия (ставится в числитель),
- меньшая дисперсия (ставится в знаменатель)
Определяется два числа степеней свободы:
(
- размер выборки числителя дроби) и
(
- размер выборки знаменателя дроби)
По таблице критических значений определяем Fкр. С помощью чисел степеней свободы и вероятности (уровня значимости).
Если F расчетное меньше критического значения, то нулевая гипотеза не отвергается с определенным уровнем значимости и можно использовать распределение Стьюдента. Если дисперсии сравниваемых совокупностей не равны, то необходимо выполнять t-тест в модификации Уэлча.
Пример.
Две выборки: Одна выборка имеет размер 60 точек, дистрибуция продукта X 40% (это данные дитсрибуционного чека), другая выборки 40 точек, дистрибуция продукта Х 30% (а это, например, данные ритейл-аудита).
Определяем два числа степеней свободы
и
Далее определяем Fкр на основе таблиц F – распределения (например для вероятности 0,05) со степенями свободы 59 и 39, и он будет равен 1,39 (таблица критических значений F-распределения расположена
здесь).
1,14 меньше чем 1,39, соответственно нулевая гипотеза не отвергается и мы можем использовать распределение Стьюдента.
Итак распределение Стьюдента.
При сравнении двух выборок проверяемая нулевая гипотеза состоит в том, что обе эти выборки происходят из нормально распределенных генеральных совокупностей с одинаковыми средними значениями. По сути для нас это будет значить, что если генеральные средние этих выборок равны, то они принадлежат одной генеральной совокупности, те выбраны из одного места и расхождение между средними (или дистрибуциями в нашем случае) обусловлено исключительно методом исследования.
Формула t-критерий Стьюдента для независимых выборок:
, где w_1 — значение численной дистрибуции первой выборки; w_2 — значение численной дистрибуции второй выборки; μ_1— средняя ошибка первой выборки; μ_2— средняя ошибка второй выборки;
Рассчитываем число степеней свободы по следующей формуле:
Определяем критическое значение t-критерия на основе полученного значения числа степеней свободы и вероятности из таблицы критических значений распределения Стьюдента (таблицу можно найти
здесь).
Сравниваем рассчитанное значение t-критерия с критическим и если оно меньше критического, то различия не значимы и нулевая гипотеза о равенстве двух генеральных средних не отвергается с выбранной вероятностью (уровнем значимости).
Пример.
Две выборки: Одна выборка имеет размер 60 точек, дистрибуция продукта X 40%, другая выборки 40 точек, дистрибуция продукта Х 30%.
Рассчитываем число степеней свободы по следующей формуле:
Определяем критическое значение t-критерия для числа свободы 98 и уровня значимости (например) 0,05 и получаем 1,98.
Так как рассчитанное значение 1,04 меньше критического, то нулевая гипотеза о равенстве двух генеральных средних не отвергается. Те если вам кажется, что разница между 30% и 40% велика, то причина не в ошибках сбора или обработки информации, а в том, что надо увеличить размер панели ритейл-аудита, если это вам, конечно, по карману и если ваше агентство на это будет согласно.