О РИТЕЙЛ-АУДИТЕ



     О ритейл-аудите

      Так как в основе ритейл-аудита не лежит покрытие всей 100% изучаемой совокупности, а лежит выборочное исследование, то и возникает такое понятие, как ошибка выборки изучаемого признака. По сути ошибка выборки, это разность между величиной изучаемого параметра в генеральной совокупности (юниверсе) и величиной этого же параметра вычисленной по результатам выборочного исследования. Это относится ко всем показателям ритейл-аудита в том числе и к численной дистрибуции. Ошибка численной дистрибуции интересна еще тем, что показатель этот встречается не только в классическом ритейл-аудите, но и во время проведения дистрибьюшин чеков, проведения полевых проверок. Конечно, в этих случаях сложно говорить о случайности выборки, но кто знает насколько случайна выборки и в ритейл-аудите:)
      У численной дистрибуции есть отличие от других показателей, так как она может принимать только два значения в торговой точке: 0 (продукта в точке нет) или 1 (продукт в точке есть). Те численная дистрибуция продукта подобна вбрасыванию монеты, когда возможно два варианта: орел или решка или подобна полу человека, когда также возможно только два варианта: мужской и женский или подобна попытке успеть на отъезжающий автобус: успею или не успею.
      Такие показатели называются альтернативными и ошибку выборки для таких показателей рассматривает теорема Бернулли (частный случай теоремы Чебышева-Ляпунова). Из нее следует, что величина расхождения между долей признака (в нашем случае это показатель дистрибуции) в выборочной совокупности (w) и долей этого признака в генеральной совокупности (p) зависит от предельной ошибки выборки (Δ). И зная выборочную долю (w) и предельную ошибку выборки (Δ) мы можем определить границы в которых заключена генеральная доля (p), те дистрибуция в юниверсе:

w-Δ ≤ p ≤ w+Δ

      Формула предельной ошибки выборки выглядит следующим образом:

Δ=t*μ

      , где t - коэффициент доверия, μ - средняя ошибка выборки
      Значению коэффициента доверия t соответствует уровень доверительной вероятности P. Соответствие некоторых значений вероятностей коэффициенту доверия t приведены в таблице ниже:

Вероятность, Р0,68270,95450,99730,9999360,99999994
Значение t1,02,03,04,05,0

      Полностью таблица нормального закона распределения приведена здесь.
      Интерпретировать результат можно так: Например, показатель численной дистрибуции бренда Х составляет 40%, предельная ошибка выборки 5% при коэффициенте доверия 1,0. Те истинное значение численной дистрибуции бренда Х лежит в диапазоне от 35% до 45% с вероятностью 68,27%. Также понятно, что оно будет лежать в диапазоне от 30% до 50% с вероятностью 95,45% или в диапазоне от 25% до 55% с вероятностью 99,73%
      В нашем случае для формулы средней ошибки выборки мы можем использовать вариант с бесповторной выборкой. Выборка является бесповторной, если при отборе шаров из мешка отобранный шар не опускается обратно в мешок и не существует вероятности, что он будет выбран еще раз. Конечно, выборка в ритейл-аудите является бесповторной, но главная причина почему мы можем использовать эту формулу, кроется в том, что мы знаем размер юниверса/генеральной совокупности.

средняя ошибка выборки

      , где - это дисперсия, N - юниверс, n - размер выборки
      Для альтернативного признака дисперсия выражается следующей формулой:

дисперсия альтернативного признака

      , где w является долей признака в выборочной совокупности и в нашем случае и будет являться численной дистрибуцией продукта в торговых точках.
      Почему это так? Дисперсия это есть средний квадрат отклонений от математического ожидания и начнем со стандартной формулы дисперсии:

дисперсия

      Как мы говорили, может принимать только значения 0 или 1, а - численной дистрибуцией продукта, те w. Сумму в числителе мы разделим на две суммы, в одной будут события, когда принимает значение 1, а в другой значения 0.

дисперсия альтернативного признака

      Те полная формула предельной ошибки выборки выглядит следующим образом:

предельная ошибка выборки

      Как влияет t на предельную ошибку выборки уже описано выше. Выражение может оказывать заметное влияние только если размер генеральной совокупности незначительный, так как для генеральных совокупностей больших размеров выражение стремится к 1. Например, для предельной ошибки выборки численной дистрибуции рынка ‘России в целом’, при значении юниверса в 300 000 и выборочной совокупности в 15 000 значение.



      Из формулы также видно, что предельная ошибка выборки зависит обратно пропорционально квадратному корню изменения размера выборки. Те при увеличении размера выборочной совокупности в 4 раза предельная ошибка выборки сократится в 2 раза, а при увеличении выборки в 9 раз предельная ошибка выборки сократится в 3 раза.
      На предельную ошибку выборки оказывает прямое воздействие корень из дисперсии или среднеквадратичное отклонение, который в свою очередь зависит от дистрибуции . Ниже приведен график зависимости среднеквадратичного отклонения от дистрибуции.

зависимость среднеквадратичного отклонения от дистрибуции

      Можно заметить, что среднеквадратичное отклонение принимает максимальное значение при дистрибуции равной 0,5 (или 50%), в этом случае среднеквадратичное отклонение будет равно . Чем ближе дистрибуция к 0 или 1, те чем более однородна изучаемая совокупность, тем среднеквадратичное отклонение меньше и тем меньше предельная ошибка выборки.
      Пример.
      Дистрибуция продукта Х в Екатеринбурге составляет 30% по данным выборочного исследования (w=30%). Размер выборки составлял 40 точек (n=40). Размер юниверса в Екатеринбурге 1200 торговых точек. Надо определить доверительный интервал в котором находится фактическое значение дистрибуции продукта X в юниверсе с вероятностью 95,4% (те t=2). В начале определяем предельную ошибку выборки:



       Определяем границы в которых заключена дистрибуция продукта Х в юниверсе или генеральной совокупности (p):



      Те с вероятностью 95,4% дистрибуция продукта X в Екатеринбурге находится в интервале от 15,76% до 44,24%.
      Возможно ли, что фактическая дистрибуция будет 50%? Конечно, и такое возможно, только вероятность того, что фактическое значение выйдет за границы доверительного интервала мала.
      З.Ы.Очень важно разделять ошибку данных ритейл-аудита и ошибку выборки. Ошибка выборки не включает ошибку при сборе данных, при их обработки, ошибку в определении размера генеральной совокупности итд.