07 сент. 2025 г.·7 мин чтения

Holdout‑тестирование для outbound: как измерить прирост встреч

Holdout‑тестирование для outbound помогает измерить инкрементальные встречи: оставьте контрольную группу нетронутой и сравните результаты воронки за заданный период.

Holdout‑тестирование для outbound: как измерить прирост встреч

Что такое holdout‑тесты и почему они важны

Holdout‑тестирование — простой способ измерить, что именно вызывает ваша исходящая рассылка. Вы делите похожий набор аккаунтов или лидов на две группы: одну вы контактируете (тестовая), а другую специально не трогаете (holdout). Затем сравниваете реальные бизнес‑результаты между ними.

То, что вы оцениваете — это инкрементальные встречи. Проще говоря: сколько встреч произошло благодаря вашему outbound, а не просто сколько встреч произошло во время рассылок. Если было забронировано 20 встреч всего, реальный вопрос в том, сколько из них случились бы и без рассылки — через inbound, рекомендации, существующие отношения или партнёров.

Метрики типа ответов и кликов полезны для ежедневной оптимизации, но они слабо доказывают реальное влияние. Ответ — это не встреча, а встреча — не доход. Атрибуция может усугублять ситуацию, отдавая весь кредит последнему взаимодействию, даже если покупатель уже собирался взаимодействовать.

Простая атрибуция может вводить в заблуждение несколькими предсказуемыми способами. Люди отвечают просто «не интересно», что выглядит как вовлечённость, но не даёт воронки. Перспективы, которые были inbound, получают контакт от outbound, и outbound получает кредит. Занятый покупатель кликает ссылку, а потом бронирует через другой канал — и клик записывается как причина. Тем временем команды фокусируются на самых громких ответах, а тихие выигрыши (где outbound подтолкнул время) остаются незамеченными.

Holdout оправданы, когда вам нужен надёжный ответ, а не просто дашборд. Если вы решаете, нанимать ли ещё SDR, увеличивать объём отправки или выходить в новый сегмент, вы хотите знать, создаёт ли outbound чисто новый pipeline.

Обычно они не стоят усилий, когда объёмы очень маленькие или циклы продаж очень длинные. Если вы контактируете всего 50 лидов в месяц, holdout может долго не показывать явной разницы.

Полезная мысленная модель — две параллельные реальности. В одном мире Группа A получает вашу последовательность. В другом мире Группа B остаётся нетронутой. Разрыв между результатами (проведённые встречи, созданные возможности) — это ваш outbound lift. Именно на этот разрыв вы можете планировать.

Holdout‑тесты vs другие эксперименты outbound

Holdout‑тест отвечает на другой вопрос, чем большинство экспериментов по outbound. Вместо «какое сообщение работает лучше?» он спрашивает «создал ли outbound встречи, которые не произошли бы сами по себе?» Это важно, потому что команда может улучшать open‑rate и при этом не создавать никакого нового pipeline.

Классический A/B‑тест сравнивает две версии чего‑то (тема, первая строка, CTA, время отправки). Все получают контакты, просто в разных вариантах. Это отлично подходит для улучшения метрик активности — открытий и ответов, и иногда даже бронирований. Но он не скажет, сколько из этих встреч были инкрементальными, потому что вы никогда не видите, что произошло бы без обращения.

Holdout держит настоящий контроль в виде незатронутой группы на определённый период. Затем вы сравниваете результаты между группами, например забронированные встречи или созданные возможности. Именно поэтому holdout — лучший инструмент для измерения lift, а не только активности.

Что можно (и чего нельзя) узнать

Holdout покажет, стоит ли делать outbound для сегмента, оффера или комбинации каналов. Если у контактируемой группы 12 встреч, а у holdout — 10 встреч, которые пришли из inbound, рекомендаций или уже существующего спроса, ваш инкрементальный lift всего 2 встречи.

Чего holdout не делает хорошо — тонкие креативные решения. Если вы выбираете между темой A и B, holdout будет избыточным. Для этого используйте A/B‑тест внутри контактируемой группы.

Простое правило выбора:

  • Используйте A/B‑тесты, чтобы улучшить исполнение outbound.
  • Используйте holdout, чтобы решить, создаёт ли outbound новые результаты.
  • Используйте оба, когда вам нужно доказательство влияния и план по его улучшению.

Как это работает для разных каналов (email, звонки, LinkedIn)

Holdout работает в любых каналах, потому что логика не меняется: часть людей получает обращения, часть — нет, и вы сравниваете результаты в воронке. Практическое требование — дисциплина. Holdout действительно остаётся нетронутым: никаких холодных писем, звонков или LinkedIn‑касаний.

Если у вас многошаговые последовательности (например, письмо + последующий звонок), рассматривайте всю последовательность как «лечение». Платформа может помочь запускать последовательность последовательно, но измерение по‑прежнему зависит от одного: holdout остаётся чистым, а успех оценивается по результатам, а не по усилиям.

Выберите заранее, какие результаты будете отслеживать

Holdout‑тест работает только если вы решили, что считается «успехом», до первого отправленного письма. Если вы меняете правила ведения учёта по ходу, легко «найти» lift, просто сдвинув ворота.

Начните с одного основного результата, который вы сможете защитить на встрече. Для большинства команд это забронированные встречи, но опишите это чётко. Например: встреча засчитывается только если принята в календаре, включает нужную персону и запланирована минимум на 15 минут. Решите, учитываются ли переносы и неявки. Многие команды считают забронированные встречи (а не посещённые), чтобы избежать шума от календарного поведения.

Вторичные downstream‑показатели полезны, но опциональны. Они отвечают на вопрос «имели ли эти встречи значение?» без необходимости держать тест вечно. Частые варианты: SQL, созданные возможности, и влияющийся доход. Если вы их отслеживаете, пропишите точные правила (например, «возможность создана в течение 30 дней после первого ответа»), чтобы все репы логировали одинаково.

Также нужны ограничения по deliverability и здоровью бренда. Даже если встречи растут, тест не стоит того, если он вызывает всплеск bounce‑ов или жалоб. Следите за базовыми метриками: уровень bounce (особенно hard‑bounce), жалобы на спам, отписки и тон ответов. Большая доля «не интересно» — знак плохого таргетинга.

Наконец, выберите окно времени для подсчёта результатов. У outbound часто длинный хвост, поэтому подберите окно, соответствующее циклу продаж, но практичное — например 14 или 30 дней от первого контакта. Используйте одинаковое окно для обеих групп.

Пример: считаем встречу только если она в календаре и случилась в течение 30 дней от первого письма. Также ставим ограничение: жалобы на спам не должны превышать обычный базовый уровень. С такими правилами вы сможете запускать тест без споров о том, что «сработало».

Как сформировать тестовую и контрольную группы

Тест сработает только если группы похожи на старте. Простейший подход: определите полный пул аккаунтов, которые вы могли бы контактировать, затем разделите его — одна группа получает outreach, другая остаётся нетронутой.

Начните с фиксации правил отбора. Например: компании в США, SaaS, от 50 до 500 сотрудников, использующие конкретный стек, не находящиеся в активных переговорах и не контактированные в последние 60 дней. Это предотвращает подгонку выборки позже.

Далее назначьте аккаунты случайно. В таблице добавьте колонку с random‑числом и отсортируйте. Первые 80% — в тест, оставшиеся 20% — в holdout (или 90/10 при маленьком списке). Главное, чтобы разбиение было автоматическим и воспроизводимым, а не по ощущению.

Когда случайного разбиения не хватает, стратифицируйте. Это значит разбить по важным категориям, чтобы каждая группа имела похожий микс. Это нужно, когда вы ожидаете, что результаты сильно различаются по сегментам: отрасль, размер компании, регион, ответственность репа или качество источника лидов.

Практический метод: создайте ба́кет‑ячейки (например отрасль × размер), затем внутри каждой случайно разбивайте 80/20.

И наконец — защитите holdout. «Нетронутый» значит действительно нетронутый в течение окна теста: никаких холодных писем, LinkedIn‑сообщений, звонков и даже «дружеских» follow‑up от репа, который узнал логотип. Если аккаунт в holdout, никто его не трогает до окончания окна.

Если вы держите разделение честным и holdout чистым, сравнение воронок потом будет гораздо надёжнее.

Пошагово: как запустить holdout‑тест для измерения lift

Проводите чище holdout‑тесты
Сохраняйте консистентность тестовой группы, а контрольную группу — действительно нетронутой.

Holdout‑тест простой по идее: оставьте часть целевых аккаунтов нетронутыми, отправьте outreach всем остальным и сравните, что произошло. Сложность — в том, чтобы не нарушать правила, когда наступают дедлайны.

Начните с одной чёткой аудитории. Используйте те же фильтры, что обычно (отрасль, роль, размер), и очистите список. Уберите дубликаты, явные не‑фиты и контакты, которым вы недавно писали. Если в списке несколько людей из одной компании, решите заранее: ваша единица — контакт или аккаунт, и придерживайтесь этого.

Практический рабочий процесс:

  1. Заморозьте аудиторию. Экспортируйте финальный список и не добавляйте «ещё пару» позже. Новые имена кладите в следующий тест.
  2. Разбейте на две группы. Случайно назначьте большую часть в тест, а меньшую — в holdout. Многие команды начинают с 10–20% holdout и держат тест достаточно долго, чтобы ответы и планирование произошли (обычно 2–6 недель).
  3. Закрепите определения до отправки. Пропишите, что считается встречей, и установите дату‑отсечки для подсчёта результатов.
  4. Делайте outreach только тестовой группе. Отправляйте обычную многошаговую последовательность, и убедитесь, что holdout не получает ни одного касания во всех каналах.
  5. Дёргайте результаты из одного источника для обеих групп. В конце посчитайте встречи, квалифицированные встречи и раннюю воронку для каждой группы по одинаковым правилам.

Чтобы посчитать lift, сравнивайте ставки, а не только суммы. Пример: если 900 тестовых лидов дали 27 встреч (3.0%), а 100 holdout‑лидов дали 1 встречу (1.0%), инкрементальный lift = 3.0% − 1.0% = 2.0 процентных пункта. Умножьте этот lift на весь размер аудитории, чтобы оценить инкрементальные встречи, созданные outbound.

Практический трюк: пометьте каждую контактированную запись тегом, чтобы holdout случайно не попал в последовательности. Если вы управляете рассылкой в системе вроде LeadTrain, держать «не контактировать» группу отдельно гораздо проще, при условии, что правила зафиксированы.

Как посчитать lift без сложной статистики

Вам не нужны сложные расчёты, чтобы извлечь смысл из holdout‑теста. Нужны две группы, один чёткий результат и одинаковое окно для обеих.

Начните с ставки, а не с абсолютного количества. Абсолютные числа вводят в заблуждение при разном размере групп.

Простые формулы (используя один и тот же результат для обеих групп, например встречи):

  • Ставка результата = (забронированные встречи) / (количество аккаунтов в группе)
  • Абсолютный lift = (ставка теста) − (ставка контроля)
  • Относительный lift = (ставка теста − ставка контроля) / (ставка контроля)
  • Инкрементальные встречи = (абсолютный lift) × (размер тестовой группы)

Пример за 14 дней:

  • Тест: 1,000 аккаунтов, 40 встреч. Ставка = 40/1000 = 4.0%
  • Контроль: 1,000 аккаунтов, 25 встреч. Ставка = 25/1000 = 2.5%

Абсолютный lift = 4.0% − 2.5% = +1.5 процентных пункта.

Относительный lift = 1.5% / 2.5% = +60%. Относительный lift выглядит впечатляюще, поэтому держите в фокусе абсолютный lift — он превращается в реальные встречи.

Инкрементальные встречи = 1.5% × 1,000 = 15 дополнительных встреч, которые можно приписать outreach.

Если числа маленькие, не делайте выводы по одной‑двум встречам — это может быть случайностью.

Когда результаты шумные, простые решения: запустите тест дольше (те же группы, больше времени) или возьмите большую аудиторию (больше аккаунтов). Можно также отслеживать ранний сигнал вроде положительных ответов, но держите встречи основным решающим метриком.

Быстрая проверка здравого смысла: разрежьте данные по одной простой оси (например отрасль или размер компании) и посмотрите, сохраняется ли lift. Если эффект виден только в одном маленьком сегменте или меняет знак из недели в неделю, считайте результат ненадёжным и продолжайте тестировать.

Частые ошибки, которые делают результаты ненадёжными

Заполните тестовую аудиторию
Подтягивайте данные перспектив через API от провайдеров вроде Apollo и держите тесты консистентными.

Holdout‑тесты чаще ломаются не из‑за математики, а из‑за реальной жизни. Идея — чистое разделение: одна группа получает обращения, другая остаётся нетронутой. Если это разделение ломается, ваш lift превращается в гадание.

Время — частая ловушка. Если вы запускаете тест во время крупной акции, изменения цен, отраслевого события или праздников, результаты могут отражать календарь, а не outreach. Всплеск inbound‑запросов также способен сделать outbound «выигрывающим», потому что часть аккаунтов забронировала бы встречу и без вас.

Изменение программы на ходу — ещё одна проблема. Если вы меняете ICP, поставщика данных или переписываете последовательность посреди теста, вы измеряете смесь действий, а не одно целое.

Самая опасная ошибка — утечка в контрольную группу. Всё начинается невинно: реп узнаёт логотип и отправляет сообщение, или AE связывается после запроса на демонстрацию. Как только holdout получает касание, вы теряете нужную базовую линию.

Следите за такими убийцами надёжности:

  • Запуск теста во время сильного сезонного колебания (праздники, конференции, бюджетные циклы)
  • Изменение таргетинга, маршрутизации или сообщений в середине теста
  • Разрешение репу контактировать holdout «разок»
  • Сравнение результатов без проверки качества списка (должности, размер компании, география)
  • Раннее прекращение теста после одной отличной (или плохой) недели

Различия в качестве списка коварны. Если в тестовой группе случайно больше готовых аккаунтов, вы переоцените lift. Перед стартом проверьте названия должностей, уровень, географию и размер компании, чтобы убедиться, что группы похожи.

Не останавливайте тест преждевременно. Неделя часто шумная из‑за отсутствий, случайных паттернов расписания или одного репа с неожиданно хорошим результатом. Зафиксируйте окно заранее.

Практическая мера предосторожности: заблокируйте holdout в CRM с понятным тегом и статусом «не контактировать». Держите аккаунты holdout вне последовательностей и не меняйте правила до конца окна.

Настройка данных: делайте отслеживание простым и единообразным

Holdout‑тест работает только если трекинг скучный и последовательный. До первого письма пропишите, что считается результатом, когда вы будете его измерять и по какой единице сравнивать группы.

Начните с фиксированного окна. Подберите окно под цикл продаж (например 14 или 30 дней) и используйте его для обеих групп. Если вы будете продлевать окно только для тестовой группы, вы незаметно внесёте смещение.

Далее решите, по аккаунту или по контакту вы считаете результаты. Для измерения lift часто удобнее уровень аккаунта, потому что в одной компании могут ответить несколько человек.

Пара определений убережёт от грязных данных:

  • Решите, учитываете ли только первую встречу по аккаунту в окне.
  • Определите, как дедуплировать записи при дублирующихся лидах.
  • Решите, что делать с аккаунтами, у которых до старта были открытые возможности, активные переписки или запланированные встречи.
  • Ведите простой лог значительных изменений в окне (новый реп, спонсорство события, изменение цен или смена источника списка).

Существующие диалоги — самая частая ловушка. Простое правило: если у аккаунта была активность продаж за последние X дней (ответ, звонок, встреча, открытая возможность), исключите его из обоих групп. Это сохраняет вопрос инкрементальности чистым.

Держите поля минимальными. Обычно нужно: назначение группы (holdout vs контакт), дата назначения, дата первого контакта (или запланированного первого контакта для holdout) и поля исходов (дата бронирования встречи, дата создания возможности, сумма воронки).

Если вы используете LeadTrain, храните назначение группы как тег, который не редактируют в ходе теста. Последовательность важнее детализации.

Пример сценария: небольшая команда продаёт и измеряет инкрементальные встречи

Улучшайте сообщения безопасно
Проводите A/B тесты внутри контактируемой группы, не ломая дизайн вашего holdout.

Небольшая B2B SaaS‑команда хочет понять, создает ли outbound встречи, которые не случились бы без него. Они выбирают 2,000 целевых аккаунтов на месяц и проводят holdout‑тест, чтобы измерить реальный lift.

Они разделяют аккаунты до отправки писем:

  • 1,600 аккаунтов — тестовая группа (контактируемые)
  • 400 аккаунтов — holdout (не контактируемые)

Они запускают 21‑дневную холодную email‑последовательность по 1,600 аккаунтам, затем прекращают рассылки и ждут ещё 14 дней. Это ожидание важно, потому что часть встреч и возможностей появляется после последнего письма, а не во время последовательности.

Когда окно закрывается, они сравнивают результаты по тем же определениям и полям CRM.

Результаты:

  • Встречи: 64 встречи в контактированной группе из 1,600 (4.0%), и 6 встреч в holdout из 400 (1.5%).
  • Возможности: 24 возможности в контактированной группе (1.5%), и 2 возможности в holdout (0.5%).

Интерпретация:

  • Lift по встречам: 4.0% − 1.5% = 2.5 процентных пункта.
  • Lift по возможностям: 1.5% − 0.5% = 1.0 процентный пункт.

Для планирования они переводят lift в инкрементальный объём. Если планируют контактировать 8,000 похожих аккаунтов в следующем месяце, они ожидают, сколько результатов создастось сверх базового уровня:

  • Инкрементальные встречи: 8,000 × 2.5% = 200 дополнительных встреч.
  • Инкрементальные возможности: 8,000 × 1.0% = 80 дополнительных возможностей.

Вот практическая ценность теста: он превращает «мы забронировали встречи» в «outbound создал примерно 2.5 дополнительных встречи на 100 аккаунтов», что проще прогнозировать, планировать штат и сравнивать с затратами.

Быстрый чек‑лист и следующие шаги

Holdout‑тесты чаще всего ломаются из‑за изменений правил по ходу. Пропишите план один раз и следуйте ему.

Чек‑лист до старта (до первой отправки)

  • Аудитория заморожена: точный список, фильтры и окно сохранены.
  • Случайное разбиение выполнено: тест и holdout похожи по миксу.
  • Правила прописаны: кто подходит, что считается встречей и когда стоп.
  • Holdout защищён: никаких ручных follow‑up, других каналов, исключений.
  • Поля трекинга заданы: единое место для группы, даты старта и исходов.

Запустите тест достаточно долго, чтобы увидеть реальные результаты. Для большинства команд это значит дождаться ответов и планирования, а не смотреть только на открытия и клики.

Во время теста

Держите длительность фиксированной, контролируйте экспозицию (только тестовая группа получает последовательность) и фиксируйте результаты одинаково для обеих групп. Записывайте bounce‑ы и отписки, не игнорируйте их. Назначьте одного ответственного, который проверяет, что holdout остаётся нетронутым.

Когда придут результаты, принимайте решение, опираясь на lift (разницу между тестом и holdout).

Если lift явно положительный — масштабируйте аккуратно. Увеличивайте объёмы шагами, сохраняйте те же правила таргетинга и периодически прогоняйте меньший holdout, чтобы подтвердить эффект.

Если lift близок к нулю — итеративно улучшайте перед масштабом. Меняйте по одному параметру (аудитория, оффер или длина последовательности), затем тестируйте снова.

Если lift отрицательный — приостановите и диагностируйте. Частые причины: плохой таргетинг, проблемы deliverability или сообщение, вызывающее быстрые «не заинтересован» ответы.

Чтобы исполнение было менее хрупким, LeadTrain (leadtrain.app) создан, чтобы держать операции outbound в одном месте: домены, почтовые ящики, прогрев, многошаговые последовательности и классификация ответов. Это не заменяет дисциплину holdout, но упрощает сохранение консистентности контактируемой группы при защите контроля.

Часто задаваемые вопросы

Что такое holdout‑тестирование в outbound простыми словами?

Holdout‑тестирование измеряет то, что ваша исходящая рассылка вызвала, а не просто то, что происходило во время отправок. Вы контактируете одну группу (тест), и намеренно не контактируете похожую группу (контроль), затем сравниваете исходы — например, забронированные встречи или созданные возможности.

Разница между двумя группами — это ваш инкрементальный lift, ту часть, которую можно обоснованно приписать outbound.

Чем holdout‑тест отличается от A/B‑теста?

A/B‑тесты показывают, какая версия сообщения работает лучше среди тех, кого вы контактируете. Holdout‑тесты показывают, создает ли само обращение к людям дополнительные встречи по сравнению с тем, если бы вы никого не трогали.

Если вы решаете, масштабировать ли outbound, holdout отвечает на более важный вопрос: «Создаёт ли это дополнительный pipeline или просто забирает на себя заслуги?»

Какой результат стоит отслеживать в holdout‑тесте?

Начните с «забронированных встреч», потому что это просто и не требует ожидания дохода. Определите правило до старта, например: «встреча считается, если она подтверждена в календаре, с нужной персоной и длится минимум 15 минут.»

Можно добавить вторичный показатель, например возможности, созданные в течение 30 дней, но держите один основной KPI, чтобы результат было трудно оспорить позже.

Какого размера должна быть контрольная группа?

Обычная схема — 80/20 (80% контактируемых, 20% holdout). Если список маленький, можно снизить holdout до 10%, чтобы не голодать по воронке.

Важно: разделение должно оставаться неизменным на протяжении всего окна теста; менять доли в процессе подрывает доверие к сравнению.

Как убедиться, что тест и контроль действительно сопоставимы?

Случайное назначение обычно подходит, если аудитория однородна. Если ожидается большая разница по сегментам, стоит стратифицировать — сделать так, чтобы в каждой группе был похожий микс по отрасли, размеру компании, региону или источнику лидов.

Цель проста: контрольная группа на старте должна выглядеть как тестовая, чтобы поздние различия скорее отражали эффект outreach, а не изначальные различия.

Как долго должен длиться holdout‑тест?

Выберите фиксированное окно, соответствующее вашему циклу продаж, но практичное — например 14 или 30 дней от первого запланированного контакта. Используйте то же самое окно для контрольной группы, даже если её не контактировали.

Не обрывайте тест преждевременно после удачной недели: расписание и отсутствие в офисе могут дать вводящие в заблуждение всплески.

Как посчитать инкрементальные встречи по результатам?

Сначала вычисляйте ставки, затем вычитайте: если из 900 контактированных лидов встречи на 3.0%, а из 100 holdout — 1.0%, абсолютный lift = 2.0 процентных пункта.

Чтобы оценить инкрементальные встречи, умножьте этот lift на размер контактируемой группы (или на прогнозируемый будущий список).

Какие самые частые ошибки, которые портят holdout‑результаты?

Главная ошибка — «утечка», когда кто‑то всё же контактирует аккаунты из holdout (письмо, звонок, LinkedIn). Когда контрольная группа затронута, базовая линия загрязняется.

Другие проблемы: менять таргетинг или сообщения в середине теста, запускать тест во время сезонных аномалий, и смотреть не на показатели долей, а на абсолютные количества при разном размере групп.

Какие дополнительные метрики, кроме встреч, стоит отслеживать?

Следите за deliverability и репутацией бренда: хард‑баунсы, жалобы на спам, отписки и доля явно отрицательных ответов. Если эти метрики взлетают, кампания может вредить вашей способности доставлять письма, даже если встреч стало больше.

Holdout должен помогать принимать решения, поэтому учитывайте не только «получили ответы», но и «устойчиво ли это?»

Как инструмент вроде LeadTrain помогает запускать holdout без сбоев?

Используйте заметный тег группы, который не меняется в ходе теста, и исключите holdout из всех последовательностей и экспортов. Операционное преимущество в том, что вы снижаете риск случайных касаний, особенно когда над территорией работают несколько людей.

Платформы вроде LeadTrain помогают держать домены, почтовые ящики, прогрев, последовательности и классификацию ответов в одном месте, что упрощает исполнение без потери дисциплины holdout.