Статистика А/Б тестов. На что смотреть, чтобы понять, какой вариант выиграл

8 минут

23.03.2018

Статистика А/Б тестов. На что смотреть, чтобы понять, какой вариант выиграл

А/Б тест — это отличная возможность проверить свою гипотезу и выбрать вариант, который принесёт больше пользы. В Carrot quest можно настроить А/Б тесты с контрольной группой и целями, а сравнивать можно не только контент, но и каналы коммуникации. Если вы не знаете, как настраивать А/Б тесты, зачем они нужны и что можно анализировать, можете познакомиться с основами А/Б тестов в нашей статье.

А/Б тест — это настоящий научный эксперимент. А значит, подойти к его реализации можно со всей ответственностью и научностью. При этом мы не будем вас мучить курсом матстатистики, а просто покажем, какими калькуляторами пользоваться и куда смотреть. Так что каждый сможет почувствовать себя королём статистики и А/Б тестов в частности.

Сегодня мы поговорим не о том, как и когда запускать А/Б тест, а когда его останавливать.

В какой момент нужно останавливать тесты, чтобы подтвердить гипотезу?
Сколько нужно измерений, чтобы хватило?
Как определить достоверность результатов теста?

Представим, что мы хотим повлиять на конверсию в клик по кнопке в поп-апе и запустили А/Б тест, изменив призыв на самой кнопке.

Мы знаем конверсию варианта А до А/Б теста — пусть она будет 2%.

Мы хотим, чтобы вариант Б был на 20% эффективнее, то есть его конверсия должна быть 2,4%.

Мне нужен чеклист по А/Б тестам?

Спасибо! Мы отправим всё на почту.

Вам подарок — бесплатный аудит вашего сайта. Подскажем, как собирать больше лидов без увеличения рекламного бюджета.

Заказать консультацию

Как долго проводить А/Б тест?

Чем меньше выборка, тем больше влияния оказывает каждый результат. Вы уже приняли решение, а потом действие нового клиента полностью меняет картину, и логичнее кажется уже другое действие. Чтобы со 100% уверенностью судить о результатах А/Б теста, надо провести его со всеми людьми на земле. Естественно, это невозможно, да и не стоит. Более того, не стоит проводить и А/Б тест на всех ваших клиентах. Достаточно подобрать оптимальный размер аудитории, увеличение которого будет сказываться на результатах незначительно. Этим и занимается матстатистика.

Чтобы понимать, что ваш результат не случайный, а поддаётся статистическим зависимостям, нужно рассчитать размер выборки, которая должна сработать в каждом варианте.

Воспользуемся калькулятором расчёта минимальной необходимой выборки.

Подставляем наши значения в калькулятор:

Начальная конверсия 2%;
Ожидаемый прирост 20%;
Указываем, что это относительная конверсия.

Ниже бегунками можно подкорректировать статистическую мощность и статистическую значимость.

Статистическая мощность — вероятность, обнаружить эффект, если он на самом деле есть. Стандартно статистическую мощность принимают за 70-80%. Достаточно, чтобы быть уверенным в гипотезе, но не слишком много, чтобы не усложнять тест.

Статистическая значимость — вероятность того, что данные исследования получены случайно, а не в результате экспериментальных манипуляций. Обычно за уровень статистической значимости принимают 5%. Просто так исторически сложилось. Здесь может быть любое значение: чем оно больше, тем больше вероятность, что вы ошибочно примите ложную гипотезу.

Оставьте эти показатели стандартными.

Чтобы разница между 2% и 2,4% была статистически значимой, каждый вариант сценария должны увидеть 19 784 человека.

А что если выборка будет в два раза меньше?

Допустим, вы запустили тест и через каждый вариант прошло по 10 000 пользователей, а у нас уже нет сил ждать. Вариант А, как и было, набрал конверсию в 2%, а у варианта Б — уже заветные 2,4%. Можно ли остановить тест?

Вот промежуточные результаты А/Б теста в Carrot quest.

Зайдём в другой калькулятор и введём наши значения.

Делим количество успехов (количество переходов по ссылке или достижения целей, если вы устанавливали цель при создании автосообщения) на общий размер выборки для каждого из вариантов (Carrot quest считает конверсию от отправленных сообщений, но логичнее считать от прочитанных).

Мы видим, что на этой выборке разница в конверсии слишком мала, чтобы с достаточной долей уверенности (95%) делать какие-то выводы, хотя уже очень близко. Обратите внимание на p-значение (в нашем случае оно равно 0,054). Его надо сравнить (за вас это делает калькулятор) с уровнем статистической значимости (по умолчанию всё те же 5%) и если окажется, что p превышает, то для принятия решения нет достаточных оснований. Чем меньше p-значение, тем лучше, так как при этом увеличивается ожидаемая значимость результата.

А если мы дождёмся 20 000, то увидим, что вариант Б более успешный. Поэтому лучше запастись терпением и подождать достаточной выборки.

Куда еще надо смотреть?

Может оказаться так, что больше людей кликают по кнопке из поп-апа Б (соответственно, его конверсия выше), но покупают меньше. Вы сделали очень привлекательный CTA, который, к сожалению, не конвертирует в покупку. В такой конверсии пропадает весь смысл. Поэтому смотреть нужно не только на конверсию, но и на деньги, которые приносит это автосообщение.

Давайте еще раз посмотрим на нашу статистику повнимательнее.

Вариант А принёс на 39 500 рублей больше. Судя по всему, с поп-апом Б что-то не так: на него отреагировало на 40 человек больше, а денег это принесло на 40 тысяч меньше. Либо лиды из поп-апа Б не покупают совсем, либо покупают более дешёвые товары. Решать, конечно, вам, но мне кажется логичнее оставить вариант А, который приносит больше денег.

Так как прочтения и клики — это в большинстве случаев не самоцель сообщения, в Carrot quest можно установить событие, которое должен выполнить клиент после прочтения в качестве цели. Количество целевых действий — уже больше похоже на ту метрику, на которую вам действительно стоит ориентироваться.

Если у вас на сайте можно купить только один товар (или все товары как в Fix Price по одной цене), то количество достижений цели будет напрямую указывать на деньги, которые вы получаете. Естественно, такая ситуация как на скрине выше у вас не получится. Чем больше достижений целей (покупок) по одинаковой цене, тем больше денег. Смотрим и радуемся. Чтобы видеть круглые красивые цифры, можете вручную установить ценность цели — ту самую единственную цену, которую может заплатить клиент.

А если вы продаёте разные продукты, то и количество денег, которое вы можете получить, будет отличаться. Для этих целей можете установить ценность на основе свойства события.

Теперь вы можете ориентироваться на деньги. И всё же будьте аккуратны. В статистике указывается суммарный доход. Если вдруг к вам пришёл крупный клиент и его чек превышает средний в 10 раз, то это естественно отразится на результатах. Но если у вас более-менее одинаковый чек, то всё получится. Тем не менее, не забывайте дождаться достаточной выборки, иначе каждый новый покупатель будет существенно влиять на ваши цифры.

Высоких вам конверсий и большой прибыли.

С удовольствием,

Carrot quest