О РИТЕЙЛ-АУДИТЕ

      Так как в основе ритейл-аудита не лежит покрытие всей 100% изучаемой совокупности, а лежит выборочное исследование, то и возникает такое понятие, как ошибка выборки изучаемого признака. По сути ошибка выборки, это разность между величиной изучаемого параметра в генеральной совокупности (юниверсе) и величиной этого же параметра вычисленной по результатам выборочного исследования. Это относится ко всем показателям ритейл-аудита в том числе и к численной дистрибуции. Ошибка численной дистрибуции интересна еще тем, что показатель этот встречается не только в классическом ритейл-аудите, но и во время проведения дистрибьюшин чеков, проведения полевых проверок. Конечно, в этих случаях сложно говорить о случайности выборки, но кто знает насколько случайна выборки и в ритейл-аудите:)
      У численной дистрибуции есть отличие от других показателей, так как она может принимать только два значения в торговой точке: 0 (продукта в точке нет) или 1 (продукт в точке есть). Те численная дистрибуция продукта подобна вбрасыванию монеты, когда возможно два варианта: орел или решка или подобна полу человека, когда также возможно только два варианта: мужской и женский или подобна попытке успеть на отъезжающий автобус: успею или не успею.
      Такие показатели называются альтернативными и ошибку выборки для таких показателей рассматривает теорема Бернулли (частный случай теоремы Чебышева-Ляпунова). Из нее следует, что величина расхождения между долей признака (в нашем случае это показатель дистрибуции) в выборочной совокупности (w) и долей этого признака в генеральной совокупности (p) зависит от предельной ошибки выборки (Δ). И зная выборочную долю (w) и предельную ошибку выборки (Δ) мы можем определить границы в которых заключена генеральная доля (p), те дистрибуция в юниверсе:

w-Δ ≤ p ≤ w+Δ

      Формула предельной ошибки выборки выглядит следующим образом:

Δ=t*μ

      , где t - коэффициент доверия, μ - средняя ошибка выборки
      Значению коэффициента доверия t соответствует уровень доверительной вероятности P. Соответствие некоторых значений вероятностей коэффициенту доверия t приведены в таблице ниже:

Вероятность, Р	0,6827	0,9545	0,9973	0,999936	0,99999994
Значение t	1,0	2,0	3,0	4,0	5,0

      Полностью таблица нормального закона распределения приведена здесь.
      Интерпретировать результат можно так: Например, показатель численной дистрибуции бренда Х составляет 40%, предельная ошибка выборки 5% при коэффициенте доверия 1,0. Те истинное значение численной дистрибуции бренда Х лежит в диапазоне от 35% до 45% с вероятностью 68,27%. Также понятно, что оно будет лежать в диапазоне от 30% до 50% с вероятностью 95,45% или в диапазоне от 25% до 55% с вероятностью 99,73%
      В нашем случае для формулы средней ошибки выборки мы можем использовать вариант с бесповторной выборкой. Выборка является бесповторной, если при отборе шаров из мешка отобранный шар не опускается обратно в мешок и не существует вероятности, что он будет выбран еще раз. Конечно, выборка в ритейл-аудите является бесповторной, но главная причина почему мы можем использовать эту формулу, кроется в том, что мы знаем размер юниверса/генеральной совокупности.

средняя ошибка выборки

, где

- это дисперсия, N - юниверс, n - размер выборки
Для альтернативного признака дисперсия выражается следующей формулой:

дисперсия альтернативного признака

, где w является долей признака в выборочной совокупности и в нашем случае и будет являться численной дистрибуцией продукта в торговых точках.
Почему это так? Дисперсия это есть средний квадрат отклонений от математического ожидания и начнем со стандартной формулы дисперсии:

Как мы говорили, может принимать только значения 0 или 1, а - численной дистрибуцией продукта, те w. Сумму в числителе мы разделим на две суммы, в одной будут события, когда принимает значение 1, а в другой значения 0.

дисперсия альтернативного признака

Те полная формула предельной ошибки выборки выглядит следующим образом:

предельная ошибка выборки

Как влияет t на предельную ошибку выборки уже описано выше. Выражение

может оказывать заметное влияние только если размер генеральной совокупности незначительный, так как для генеральных совокупностей больших размеров выражение

стремится к 1. Например, для предельной ошибки выборки численной дистрибуции рынка ‘России в целом’, при значении юниверса в 300 000 и выборочной совокупности в 15 000 значение.

Из формулы также видно, что предельная ошибка выборки зависит обратно пропорционально квадратному корню изменения размера выборки. Те при увеличении размера выборочной совокупности в 4 раза предельная ошибка выборки сократится в 2 раза, а при увеличении выборки в 9 раз предельная ошибка выборки сократится в 3 раза.
На предельную ошибку выборки оказывает прямое воздействие корень из дисперсии или среднеквадратичное отклонение, который в свою очередь зависит от дистрибуции

. Ниже приведен график зависимости среднеквадратичного отклонения от дистрибуции.

зависимость среднеквадратичного отклонения от дистрибуции

зависимость среднеквадратичного отклонения от дистрибуции

Можно заметить, что среднеквадратичное отклонение принимает максимальное значение при дистрибуции равной 0,5 (или 50%), в этом случае среднеквадратичное отклонение будет равно

. Чем ближе дистрибуция к 0 или 1, те чем более однородна изучаемая совокупность, тем среднеквадратичное отклонение меньше и тем меньше предельная ошибка выборки.
Пример.
Дистрибуция продукта Х в Екатеринбурге составляет 30% по данным выборочного исследования (w=30%). Размер выборки составлял 40 точек (n=40). Размер юниверса в Екатеринбурге 1200 торговых точек. Надо определить доверительный интервал в котором находится фактическое значение дистрибуции продукта X в юниверсе с вероятностью 95,4% (те t=2). В начале определяем предельную ошибку выборки:

Определяем границы в которых заключена дистрибуция продукта Х в юниверсе или генеральной совокупности (p):

      Те с вероятностью 95,4% дистрибуция продукта X в Екатеринбурге находится в интервале от 15,76% до 44,24%.
      Возможно ли, что фактическая дистрибуция будет 50%? Конечно, и такое возможно, только вероятность того, что фактическое значение выйдет за границы доверительного интервала мала.
      З.Ы.Очень важно разделять ошибку данных ритейл-аудита и ошибку выборки. Ошибка выборки не включает ошибку при сборе данных, при их обработки, ошибку в определении размера генеральной совокупности итд.