Что произошло
В 1908 году в журнале «Biometrika» вышла статья под названием «The Probable Error of a Mean» — «Вероятная ошибка среднего». Автором значился некий Student — Студент. Ни имени, ни аффилиации, ни учёных степеней. Статья была короткой, математически плотной и, на первый взгляд, посвящённой узкому вопросу: как оценить надёжность среднего арифметического, когда у вас мало наблюдений?
За псевдонимом скрывался Уильям Сили Госсет — тридцатидвухлетний химик и математик, работавший на пивоварне Arthur Guinness Son & Co. в Дублине. Не профессор, не академик — пивовар. Человек, который каждый день решал практическую задачу: как по результатам небольшой выборки (несколько бочек пива, несколько партий ячменя) делать надёжные выводы обо всей продукции?
Проблема была конкретной. Guinness — крупнейшая пивоварня Ирландии — закупала ячмень у сотен фермеров. Качество сырья варьировалось. Нужно было быстро, по нескольким образцам, определить: эта партия ячменя даст хорошее пиво или нет? Классическая статистика того времени работала с большими выборками — сотнями и тысячами наблюдений. У Госсета были десятки, иногда единицы. Как быть?
Госсет подошёл к вопросу как инженер: раз существующие инструменты не годятся для малых выборок — нужно создать новый. Он вывел распределение, которое описывает поведение среднего значения при малом числе наблюдений. Это распределение отличалось от нормального (гауссова): оно было «шире», с более толстыми хвостами, отражая бо́льшую неопределённость малых выборок. По мере роста числа наблюдений t-распределение приближалось к нормальному — но при малых выборках разница была принципиальной.
На основе этого распределения Госсет построил критерий — способ ответить на вопрос: «Различаются ли две группы на самом деле, или разница объясняется случайностью?» Этот критерий и стал известен как t-критерий Стьюдента.
Контекст эпохи
Начало XX века — золотая эра математической статистики. Фрэнсис Гальтон уже ввёл понятие корреляции и регрессии к среднему. Карл Пирсон — редактор того самого журнала «Biometrika», где вышла статья Госсета, — разработал критерий хи-квадрат и заложил основы статистического тестирования гипотез. Статистика стремительно превращалась из раздела математики в практический инструмент для биологии, медицины, сельского хозяйства.
Но все эти методы были заточены под большие выборки. Гальтон и Пирсон работали с данными переписей населения, антропометрическими измерениями тысяч людей, массовыми биологическими экспериментами. Центральная предельная теорема — фундамент классической статистики — гарантировала, что при достаточно большой выборке среднее будет распределено нормально. «Достаточно большой» означало сотни наблюдений.
А что делать, если у вас четыре бочки пива? Или десять мешков ячменя? Или — забегая на сто лет вперёд — восемь участников юзабилити-теста?
Госсет оказался в уникальном положении: он получил прекрасное математическое образование (Оксфорд, степень по химии и математике), но работал не в университете, а на производстве. Он не мог позволить себе роскошь больших выборок — каждый дополнительный анализ стоил времени и денег. Ему нужен был метод, который работает «здесь и сейчас», с тем количеством данных, которое есть.
И ещё одна деталь, придающая этой истории почти романтический оттенок: Guinness запрещала сотрудникам публиковаться. Компания справедливо считала, что её статистические методы контроля качества — конкурентное преимущество. Госсет нарушил запрет — но осторожно: спрятался за псевдонимом. «Student» — «Студент» — была самоирония: зрелый специалист, маскирующийся под начинающего учёного, чтобы не навлечь гнев работодателя. Руководство Guinness, судя по всему, со временем узнало о публикации, но закрыло глаза: статья не раскрывала коммерческих секретов, а репутация компании, чей сотрудник двигает науку, скорее росла.
Рональд Фишер и научное признание
Сама по себе статья 1908 года не произвела фурора. Математическое сообщество приняло её сдержанно: Карл Пирсон опубликовал, но не придал особого значения. Полное признание пришло через другого великого статистика — Рональда Фишера.
В 1920-х годах Фишер, работавший на Ротамстедской сельскохозяйственной опытной станции (снова практик, снова не чистый теоретик!), систематизировал работу Госсета, дал строгое математическое обоснование t-распределению и встроил t-критерий в общую теорию проверки гипотез. Именно Фишер ввёл понятие «статистической значимости» и порог p < 0,05 — который станет золотым стандартом в науке на следующее столетие. И именно Фишер популяризировал обозначение «t» для статистики Госсета — закрепив псевдоним «Student» в названии критерия навсегда.
Фишер также развил идеи Госсета в направлении планирования экспериментов. Если t-критерий отвечал на вопрос «Различаются ли группы?», то теория Фишера отвечала на вопрос «Как спланировать эксперимент, чтобы получить надёжный ответ?» Рандомизация, контрольные группы, факторные планы — весь арсенал экспериментальной науки XX века вырос из этой линии: Госсет → Фишер → современная методология.
Значение для UX
Связь между пивоваренным заводом 1908 года и юзабилити-лабораторией 2026 года может показаться натянутой. Но она абсолютно прямая — и вот почему.
A/B-тестирование. Каждый раз, когда UX-команда запускает A/B-тест — сравнивает два варианта страницы, две формулировки кнопки, два сценария онбординга, — она, по сути, решает задачу Госсета: есть две группы, есть числовые результаты (конверсия, время на задачу, процент ошибок), нужно понять — разница реальна или это случайность? t-критерий Стьюдента (или его современные модификации) — стандартный инструмент для ответа на этот вопрос. Без него A/B-тестирование было бы гаданием на кофейной гуще.
Статистическая значимость vs. практическая значимость. Госсет решал ту же проблему, с которой сталкивается каждый UX-исследователь: когда разница «достаточно большая», чтобы на неё можно было полагаться? Конверсия варианта A — 3,2%, варианта B — 3,5%. Это улучшение? Или статистический шум? Ответ зависит от размера выборки, дисперсии данных и выбранного уровня значимости. t-критерий даёт формальный ответ. Но — и это важно — статистическая значимость не равна практической. Разница может быть статистически значимой, но ничтожной по масштабу. Госсет это понимал: его интересовала не абстрактная математика, а практическое решение — брать эту партию ячменя или нет.
Проблема малых выборок в UX-исследованиях. Госсет работал с малыми выборками — и его решение было создать метод, который честно учитывает неопределённость малых данных. В UX-исследованиях эта проблема стоит остро. Якоб Нильсен сформулировал знаменитое правило: «5 пользователей находят 85% проблем юзабилити». Это верно для качественных исследований — наблюдение за поведением, выявление паттернов. Но для количественных измерений — метрик юзабилити — пять пользователей катастрофически мало. t-критерий Стьюдента наглядно показывает почему: при выборке из 5 человек доверительный интервал настолько широк, что практически любая разница может быть объяснена случайностью.
Это не означает, что малые выборки бесполезны. Это означает, что нужно честно понимать границы своих данных — ровно то, чему учил Госсет.
Культура принятия решений на основе данных. За t-критерием стоит более глубокая идея, чем конкретная формула. Это идея о том, что решения должны основываться на данных, а не на мнениях — но при этом данные нужно интерпретировать правильно, с учётом их ограничений. Госсет не доверял интуиции пивоваров («на глаз этот ячмень хороший»). Он не доверял и слепому следованию формулам, созданным для других условий. Он создал инструмент, подходящий для реальной ситуации — малые выборки, высокая неопределённость, необходимость принимать решение сегодня.
В UX-практике этот подход означает: не принимай решение о редизайне на основании «мне кажется, так лучше». Не принимай его и на основании A/B-теста с 50 пользователями, если нужна статистическая мощность для выявления 2-процентной разницы. Пойми, какие данные у тебя есть, чего они стоят и чего они не могут сказать.
Наследие пивовара
Госсет проработал в Guinness всю жизнь — с 1899 по 1937 год, когда скоропостижно скончался в возрасте 61 года. Он дослужился до должности главного пивовара нового завода в Лондоне. За три десятилетия в компании он решил десятки практических задач — от оптимальной температуры варки до селекции сортов ячменя — и каждая из них требовала статистических методов для малых выборок.
Его переписка с Фишером и Пирсоном — один из самых увлекательных документов в истории статистики: практик и теоретики спорят о природе вероятности, о границах применимости методов, о том, что важнее — математическая строгость или практическая полезность. Эти дебаты продолжаются и сегодня — в том числе в UX-сообществе, где вопрос «сколько пользователей достаточно для теста?» не имеет универсального ответа.
t-критерий Стьюдента остаётся одним из самых часто используемых статистических методов в мире — и одним из самых часто используемых неправильно. Каждый раз, когда UX-исследователь сравнивает метрики двух вариантов дизайна, он стоит на плечах дублинского пивовара, который сто с лишним лет назад задал себе простой практический вопрос: «Как мне по четырём бочкам понять, хороший ли это ячмень?»
Связанные статьи
- Что такое юзабилити — метрики удобства, для измерения которых необходимы статистические методы
- Что такое UX — пользовательский опыт как объект количественного исследования
- Эвристики Нильсена — качественный метод оценки юзабилити, который дополняет количественные подходы
- Закон Фиттса — ещё один пример, когда эмпирическое измерение превратилось в фундаментальный закон проектирования
В предыдущих статьях «Истории UX» — о законе Парето (1897), который определяет приоритеты UX-аудита, и об Иване Сеченове (1901), заложившем научную основу эргономики в России.