A/B-тестирование: Google и эра данных (2000)

Q: Когда Google провёл первый A/B-тест и в чём он состоял?

В 2000 году Google провёл один из первых A/B-тестов для веб-интерфейсов. Команда проверяла, сколько результатов показывать на странице поиска — 10 или 30. Случайным образом одним пользователям показывали 10 результатов, другим — 30. Выяснилось, что страница с 30 результатами загружалась дольше, и пользователи уходили. Победил вариант с 10 результатами — не потому что пользователям не нужно больше ссылок, а потому что скорость загрузки оказалась важнее количества.

Q: Что такое история с «41 оттенком синего» в Google?

В середине 2000-х Марисса Мейер, вице-президент Google по поиску, не могла решить, какой оттенок синего использовать для ссылок. Дизайнеры предлагали один цвет, инженеры — другой. Мейер приказала протестировать 41 оттенок — от зеленовато-синего до фиолетово-синего — на реальных пользователях. Победивший оттенок, по оценке Google, принёс $200 миллионов дополнительной выручки в год. История стала символом data-driven подхода — и его крайностей.

Q: Изобрёл ли Google A/B-тестирование?

Нет. Метод случайного контролируемого эксперимента восходит к работам Рональда Фишера 1920-х годов в сельском хозяйстве. Фишер сравнивал урожайность на случайно распределённых участках полей. В маркетинге A/B-тесты использовались с 1960-х для рассылок и рекламы. Заслуга Google — в применении метода к веб-интерфейсам в масштабе миллионов пользователей и в создании инфраструктуры для непрерывного тестирования.

Что произошло

2000 год. Google — двухлетний стартап из Маунтин-Вью, Калифорния. Сто пятьдесят сотрудников, один продукт — поисковая система. Компания уже обрабатывает десятки миллионов запросов в день, но ещё не вышла на IPO и не стала глаголом. Офис — переделанный гараж, потом — арендованные комнаты в Googleplex. Атмосфера — университетская лаборатория, а не корпорация.

Перед командой встаёт, казалось бы, тривиальный вопрос: сколько результатов показывать на странице поиска? Десять? Двадцать? Тридцать? У всех есть мнение. Дизайнеры считают, что больше — лучше: пользователю не придётся кликать «следующая страница». Инженеры напоминают, что больше результатов — больше времени загрузки. Менеджеры хотят данных, а не мнений.

Ларри Пейдж и Сергей Брин — оба с докторским бэкграундом из Стэнфорда — принимают решение, определившее культуру Google на десятилетия: не спорить, а проверить. Команда настраивает эксперимент. Случайная выборка пользователей делится на две группы. Первая видит 10 результатов на странице (контрольная группа). Вторая — 30 результатов (тестовая группа). Всё остальное идентично. Замеряется поведение: время на странице, количество кликов, возврат к поиску, уход с сайта.

Результат оказался неожиданным. Страница с 30 результатами загружалась на 0,5 секунды дольше — казалось бы, мелочь. Но эта полусекунда вела к ощутимому падению активности: пользователи совершали меньше поисков, реже кликали на результаты, чаще уходили. Полсекунды задержки — минус 20% поисковых запросов. Победило число 10 — не потому что людям не нужно больше ссылок, а потому что скорость оказалась важнее количества.

Этот эксперимент стал началом. К 2011 году Google проводил более 7 000 A/B-тестов в год только на поиске. К 2020-м — сотни тысяч экспериментов ежегодно по всем продуктам. Каждое изменение — цвет кнопки, размер шрифта, порядок элементов, формулировка подсказки — тестировалось на реальных пользователях, прежде чем попасть в продакшн.

Самая известная история из культуры тестирования Google — «41 оттенок синего». В середине 2000-х Марисса Мейер, тогда вице-президент по поисковым продуктам, не могла выбрать цвет ссылок. Команда дизайнеров предлагала зеленовато-синий. Команда Gmail — другой оттенок. Мейер решила не выбирать, а тестировать: 41 вариант синего, от почти зелёного до почти фиолетового, был показан миллионам пользователей. Победивший оттенок, по оценке компании, принёс $200 миллионов дополнительной годовой выручки. Разница между «правильным» и «неправильным» синим — это разница между кликом и не-кликом, умноженная на миллиард.

Контекст эпохи

A/B-тестирование не было изобретением Google. Метод рандомизированного контролируемого эксперимента имеет вековую историю.

Рональд Фишер, британский статистик, в 1920-х годах разработал методологию сельскохозяйственных экспериментов на опытной станции Ротамстед в Англии. Его задача звучала знакомо: какое удобрение лучше? Фишер предложил делить поле на случайные участки, применять к ним разные условия и сравнивать урожайность. Случайное распределение устраняло систематические искажения — разницу в почве, освещении, влажности. Его книга «The Design of Experiments» (1935) стала библией экспериментальной науки.

В маркетинге A/B-тестирование использовалось с 1960-х годов. Каталожные компании — Sears, JCPenney — отправляли разные версии каталогов случайно выбранным группам клиентов и сравнивали объём заказов. Прямые рассылки тестировались десятилетиями: другой заголовок, другое предложение, другой цвет конверта. Метод был знаком и маркетологам, и фармацевтам (клинические испытания).

Заслуга Google — не в изобретении, а в масштабе и скорости. До интернета A/B-тест длился неделями: напечатать каталоги, отправить, дождаться ответов, подсчитать. В вебе результат можно получить за часы. Тысячи пользователей, автоматическое распределение, мгновенная статистика. Google построил инфраструктуру для непрерывного экспериментирования: каждый пользователь мог одновременно участвовать в десятках тестов, не подозревая об этом.

2000 год — это ещё и пик дотком-пузыря. Nasdaq рухнул в марте 2000-го, уничтожив сотни стартапов. Компании, строившие бизнес на красивых идеях без данных, разорялись одна за другой. Google выжил — и одна из причин в том, что компания с первого дня строила решения на экспериментах, а не на интуиции. «In God we trust, all others bring data» — фраза, приписываемая У. Эдвардсу Демингу, стала неофициальным девизом Google. Данные не гарантировали успех, но они исключали самые очевидные ошибки.

Значение для UX

A/B-тестирование изменило отношения между дизайном и данными. До Google 2000-го года дизайнерские решения принимались экспертами. Эвристики Нильсена — экспертный метод: специалист оценивает интерфейс по принципам. Юзабилити-тестирование — качественный метод: пять пользователей, наблюдение, инсайты. A/B-тестирование добавило третье измерение — количественное: не «что думает эксперт» и не «что говорит пользователь», а «что делают миллионы людей».

Data-driven UX. После Google принцип «тестируй, а не спорь» распространился по всей индустрии. Amazon, Microsoft, Netflix, Facebook — все крупные технологические компании построили платформы для непрерывного A/B-тестирования. Microsoft создал ExP (Experimentation Platform), через которую к 2020-м ежегодно проходило более 20 000 контролируемых экспериментов. Netflix тестировал обложки фильмов: какое изображение получит больше кликов? Amazon тестировал каждый пиксель страницы товара.

От A/B к более сложным методам. Простой A/B-тест — два варианта, одна метрика. Но реальность сложнее. Появились multivariate tests (тестирование нескольких переменных одновременно), бандитские алгоритмы (которые в процессе теста перенаправляют трафик на побеждающий вариант), feature flags (переключатели, позволяющие включать и выключать функции для разных групп пользователей). Каждый из этих инструментов — развитие идеи, реализованной Google в 2000 году.

Критика и ограничения. История с 41 оттенком синего стала не только примером, но и предупреждением. Дуглас Боуман, ведущий визуальный дизайнер Google, в 2009 году ушёл из компании со словами: «Я устал спорить о том, какой из 41 оттенка синего правильный. Когда дизайнер не может решить, добавить ли к границе 3, 4 или 5 пикселей, а должен обосновать это данными — что-то пошло не так». Боуман ушёл в Twitter, где дизайн ещё решали люди, а не алгоритмы. Его уход обнажил фундаментальное противоречие: A/B-тестирование оптимизирует существующее, но не создаёт новое. Можно протестировать 41 оттенок синего — но нельзя протестировать идею, которой ещё нет. iPhone не был результатом A/B-теста.

Для UX-практики A/B-тестирование — мощный, но не единственный инструмент. Оно отвечает на вопрос «что работает лучше?», но не на вопрос «почему?» Что такое UX — это не только клики и конверсии, но и эмоции, понимание, доверие. Для этого нужны качественные методы: глубинные интервью, наблюдение, метод «мыслей вслух». Лучшие команды сочетают количественное и качественное: A/B-тест показывает что не работает, юзабилити-тестирование объясняет почему.

Закон Якоба напоминает: пользователи проводят большую часть времени на других сайтах. Они ожидают, что ваш сайт работает как остальные. A/B-тестирование помогает обнаружить эти ожидания — не спрашивая людей, а наблюдая за их поведением в масштабе.

Связанные статьи

Что такое UX — A/B-тестирование измеряет поведение, но пользовательский опыт — это больше, чем клики и конверсии. Полная картина требует и количественных, и качественных методов.
Эвристики Нильсена — экспертная оценка и A/B-тестирование — два полюса: мнение специалиста против поведения миллионов. Лучшие команды используют оба.
Закон Якоба — пользователи приходят с ожиданиями, сформированными другими сайтами. A/B-тестирование помогает обнаружить эти ожидания через данные о поведении.
Что такое юзабилити — A/B-тесты измеряют результативность и эффективность — два из трёх компонентов юзабилити по ISO 9241-11.

Из серии «История UX»:

Метод «мыслей вслух» (1980) — качественный метод, который объясняет «почему», тогда как A/B-тест показывает только «что».
Эвристическая оценка (1990) — до эры данных экспертная оценка была основным способом находить проблемы интерфейса. A/B-тестирование добавило количественное измерение.
3G и мобильный интернет (2000) — в том же 2000 году мир получил мобильный интернет, открывший новый фронт для экспериментов с интерфейсами.

Что произошло

Контекст эпохи

Значение для UX

Связанные статьи

Вопросы и ответы

Нужна помощь с UX?