Autopilot Ramp‑up — умная автопилот‑раскатка
10.1 Цель
Section titled “10.1 Цель”Autopilot ramp‑up — чтобы раскатка была не на “чуйке”, а по понятным правилам и с автоматической безопасностью. Ручная раскатка по доля трафика эксперимента медленная и рискованная. Нужен автопилот, который:
- ускоряет получение данных,
- автоматически повышает трафик, когда всё хорошо,
- автоматически тормозит/останавливает, когда плохо,
- делает процесс прозрачным (понятно почему шагнули/поставили на паузу).
10.2 Что такое ramp‑plan
Section titled “10.2 Что такое ramp‑plan”В истории: команда заранее решает: 1% → 5% → 25% → 50% → 100%, и что должно быть “окей” на каждом шаге. Ramp‑plan — конфигурация, прикреплённая к эксперименту, которая определяет:
- ступени трафика (например, 1% → 5% → 10% → 25% → 50% → 100%);
- условия перехода на следующую ступень (gates);
- условия экстренной реакции (safety actions);
- минимальные требования к данным (data sufficiency);
- окна наблюдения для проверки.
10.3 Gates: “когда можно увеличивать”
Section titled “10.3 Gates: “когда можно увеличивать””В истории: если DQ зелёный и guardrails не горят — можно увеличить. Если горят — стоп. Для каждого шага автопилот должен проверять, что:
10.3.1 Достаточно данных
Section titled “10.3.1 Достаточно данных”Примеры критериев (настраиваемые):
- общее число показов >= X за окно,
- число показов на вариант >= Y (для A/B/n),
- прошло минимум T минут на текущей ступени.
10.3.2 Безопасность
Section titled “10.3.2 Безопасность”- guardrails не сработали;
- доля ошибок и latency (avg/p95) находятся в пределах порогов (могут быть отдельные “ramp‑пороги”, мягче/жёстче, чем guardrails).
10.3.3 Здоровье данных
Section titled “10.3.3 Здоровье данных”- нет критических предупреждений Data Quality (например, SRM/перекос, массовые rejected events).
Если gates выполнены — переход на следующую ступень.
10.4 Safety actions: “что делать, если плохо”
Section titled “10.4 Safety actions: “что делать, если плохо””В истории: это как аварийная кнопка: что именно делаем автоматически, чтобы не ждать, пока кто-то заметит. Автопилот должен уметь действовать по политике:
- автоматическая пауза — поставить эксперимент на паузу и уведомить.
- автоматический откат к контролю — откатить к контролю (если такой режим поддержан).
- шаг назад по трафику — откатиться на предыдущую ступень traffic (например, с 25% обратно на 10%) и дать время стабилизироваться.
Выбор действия задаётся в ramp‑plan и может отличаться по уровню критичности.
10.5 Прозрачность и управляемость
Section titled “10.5 Прозрачность и управляемость”В истории: продакт и инженер должны понимать, на каком шаге раскатка сейчас, почему остановилась и кто это сделал.
10.5.1 Автопилот не должен быть “чёрным ящиком”
Section titled “10.5.1 Автопилот не должен быть “чёрным ящиком””Система обязана фиксировать историю “решений автопилота”:
- текущая ступень,
- когда и почему перешли,
- какие метрики/пороги проверяли,
- что именно нарушилось при остановке.
10.5.2 Ручное вмешательство
Section titled “10.5.2 Ручное вмешательство”Админ/владелец (при наличии прав) может:
- временно остановить автопилот (manual mode),
- перезапустить автопилот,
- пропустить ступень (override) — опционально, под аудит.