t-критерий Стьюдента (1908)

Q: Почему t-критерий называется «Стьюдента», а не «Госсета»?

Уильям Сили Госсет работал главным пивоваром-статистиком на заводе Guinness в Дублине. Компания запрещала сотрудникам публиковать научные работы, чтобы конкуренты не узнали о методах контроля качества. Госсет обошёл запрет, опубликовав статью в 1908 году под псевдонимом «Student» (Студент). Псевдоним прижился, и метод навсегда стал известен как «t-критерий Стьюдента» — хотя за «студентом» стоял 32-летний специалист с 9 годами опыта в промышленной статистике.

Q: Как t-критерий Стьюдента связан с A/B-тестированием в UX?

A/B-тестирование — это, по сути, сравнение двух выборок: группа A видит один вариант интерфейса, группа B — другой. Чтобы понять, есть ли реальная разница в конверсии или это случайное отклонение, применяют статистические критерии — и t-критерий Стьюдента является одним из самых распространённых. Без него невозможно отличить значимый результат от статистического шума — а значит, невозможно принимать обоснованные решения о дизайне интерфейсов.

Q: Почему нельзя полагаться только на 5 пользователей в юзабилити-тестировании?

Правило «5 пользователей находят 80% проблем» (сформулированное Якобом Нильсеном) касается качественного юзабилити-тестирования — поиска проблем через наблюдение. Но когда нужно измерить количественную разницу между вариантами дизайна (что быстрее? где больше ошибок?), 5 пользователей недостаточно. t-критерий Стьюдента как раз показывает: чем меньше выборка, тем шире «коридор неопределённости» и тем труднее отличить реальный эффект от случайности. Для количественных выводов нужны десятки, а иногда и сотни участников.

Что произошло

В 1908 году в журнале «Biometrika» вышла статья под названием «The Probable Error of a Mean» — «Вероятная ошибка среднего». Автором значился некий Student — Студент. Ни имени, ни аффилиации, ни учёных степеней. Статья была короткой, математически плотной и, на первый взгляд, посвящённой узкому вопросу: как оценить надёжность среднего арифметического, когда у вас мало наблюдений?

За псевдонимом скрывался Уильям Сили Госсет — тридцатидвухлетний химик и математик, работавший на пивоварне Arthur Guinness Son & Co. в Дублине. Не профессор, не академик — пивовар. Человек, который каждый день решал практическую задачу: как по результатам небольшой выборки (несколько бочек пива, несколько партий ячменя) делать надёжные выводы обо всей продукции?

Проблема была конкретной. Guinness — крупнейшая пивоварня Ирландии — закупала ячмень у сотен фермеров. Качество сырья варьировалось. Нужно было быстро, по нескольким образцам, определить: эта партия ячменя даст хорошее пиво или нет? Классическая статистика того времени работала с большими выборками — сотнями и тысячами наблюдений. У Госсета были десятки, иногда единицы. Как быть?

Госсет подошёл к вопросу как инженер: раз существующие инструменты не годятся для малых выборок — нужно создать новый. Он вывел распределение, которое описывает поведение среднего значения при малом числе наблюдений. Это распределение отличалось от нормального (гауссова): оно было «шире», с более толстыми хвостами, отражая бо́льшую неопределённость малых выборок. По мере роста числа наблюдений t-распределение приближалось к нормальному — но при малых выборках разница была принципиальной.

На основе этого распределения Госсет построил критерий — способ ответить на вопрос: «Различаются ли две группы на самом деле, или разница объясняется случайностью?» Этот критерий и стал известен как t-критерий Стьюдента.

Контекст эпохи

Начало XX века — золотая эра математической статистики. Фрэнсис Гальтон уже ввёл понятие корреляции и регрессии к среднему. Карл Пирсон — редактор того самого журнала «Biometrika», где вышла статья Госсета, — разработал критерий хи-квадрат и заложил основы статистического тестирования гипотез. Статистика стремительно превращалась из раздела математики в практический инструмент для биологии, медицины, сельского хозяйства.

Но все эти методы были заточены под большие выборки. Гальтон и Пирсон работали с данными переписей населения, антропометрическими измерениями тысяч людей, массовыми биологическими экспериментами. Центральная предельная теорема — фундамент классической статистики — гарантировала, что при достаточно большой выборке среднее будет распределено нормально. «Достаточно большой» означало сотни наблюдений.

А что делать, если у вас четыре бочки пива? Или десять мешков ячменя? Или — забегая на сто лет вперёд — восемь участников юзабилити-теста?

Госсет оказался в уникальном положении: он получил прекрасное математическое образование (Оксфорд, степень по химии и математике), но работал не в университете, а на производстве. Он не мог позволить себе роскошь больших выборок — каждый дополнительный анализ стоил времени и денег. Ему нужен был метод, который работает «здесь и сейчас», с тем количеством данных, которое есть.

И ещё одна деталь, придающая этой истории почти романтический оттенок: Guinness запрещала сотрудникам публиковаться. Компания справедливо считала, что её статистические методы контроля качества — конкурентное преимущество. Госсет нарушил запрет — но осторожно: спрятался за псевдонимом. «Student» — «Студент» — была самоирония: зрелый специалист, маскирующийся под начинающего учёного, чтобы не навлечь гнев работодателя. Руководство Guinness, судя по всему, со временем узнало о публикации, но закрыло глаза: статья не раскрывала коммерческих секретов, а репутация компании, чей сотрудник двигает науку, скорее росла.

Рональд Фишер и научное признание

Сама по себе статья 1908 года не произвела фурора. Математическое сообщество приняло её сдержанно: Карл Пирсон опубликовал, но не придал особого значения. Полное признание пришло через другого великого статистика — Рональда Фишера.

В 1920-х годах Фишер, работавший на Ротамстедской сельскохозяйственной опытной станции (снова практик, снова не чистый теоретик!), систематизировал работу Госсета, дал строгое математическое обоснование t-распределению и встроил t-критерий в общую теорию проверки гипотез. Именно Фишер ввёл понятие «статистической значимости» и порог p < 0,05 — который станет золотым стандартом в науке на следующее столетие. И именно Фишер популяризировал обозначение «t» для статистики Госсета — закрепив псевдоним «Student» в названии критерия навсегда.

Фишер также развил идеи Госсета в направлении планирования экспериментов. Если t-критерий отвечал на вопрос «Различаются ли группы?», то теория Фишера отвечала на вопрос «Как спланировать эксперимент, чтобы получить надёжный ответ?» Рандомизация, контрольные группы, факторные планы — весь арсенал экспериментальной науки XX века вырос из этой линии: Госсет → Фишер → современная методология.

Значение для UX

Связь между пивоваренным заводом 1908 года и юзабилити-лабораторией 2026 года может показаться натянутой. Но она абсолютно прямая — и вот почему.

A/B-тестирование. Каждый раз, когда UX-команда запускает A/B-тест — сравнивает два варианта страницы, две формулировки кнопки, два сценария онбординга, — она, по сути, решает задачу Госсета: есть две группы, есть числовые результаты (конверсия, время на задачу, процент ошибок), нужно понять — разница реальна или это случайность? t-критерий Стьюдента (или его современные модификации) — стандартный инструмент для ответа на этот вопрос. Без него A/B-тестирование было бы гаданием на кофейной гуще.

Статистическая значимость vs. практическая значимость. Госсет решал ту же проблему, с которой сталкивается каждый UX-исследователь: когда разница «достаточно большая», чтобы на неё можно было полагаться? Конверсия варианта A — 3,2%, варианта B — 3,5%. Это улучшение? Или статистический шум? Ответ зависит от размера выборки, дисперсии данных и выбранного уровня значимости. t-критерий даёт формальный ответ. Но — и это важно — статистическая значимость не равна практической. Разница может быть статистически значимой, но ничтожной по масштабу. Госсет это понимал: его интересовала не абстрактная математика, а практическое решение — брать эту партию ячменя или нет.

Проблема малых выборок в UX-исследованиях. Госсет работал с малыми выборками — и его решение было создать метод, который честно учитывает неопределённость малых данных. В UX-исследованиях эта проблема стоит остро. Якоб Нильсен сформулировал знаменитое правило: «5 пользователей находят 85% проблем юзабилити». Это верно для качественных исследований — наблюдение за поведением, выявление паттернов. Но для количественных измерений — метрик юзабилити — пять пользователей катастрофически мало. t-критерий Стьюдента наглядно показывает почему: при выборке из 5 человек доверительный интервал настолько широк, что практически любая разница может быть объяснена случайностью.

Это не означает, что малые выборки бесполезны. Это означает, что нужно честно понимать границы своих данных — ровно то, чему учил Госсет.

Культура принятия решений на основе данных. За t-критерием стоит более глубокая идея, чем конкретная формула. Это идея о том, что решения должны основываться на данных, а не на мнениях — но при этом данные нужно интерпретировать правильно, с учётом их ограничений. Госсет не доверял интуиции пивоваров («на глаз этот ячмень хороший»). Он не доверял и слепому следованию формулам, созданным для других условий. Он создал инструмент, подходящий для реальной ситуации — малые выборки, высокая неопределённость, необходимость принимать решение сегодня.

В UX-практике этот подход означает: не принимай решение о редизайне на основании «мне кажется, так лучше». Не принимай его и на основании A/B-теста с 50 пользователями, если нужна статистическая мощность для выявления 2-процентной разницы. Пойми, какие данные у тебя есть, чего они стоят и чего они не могут сказать.

Наследие пивовара

Госсет проработал в Guinness всю жизнь — с 1899 по 1937 год, когда скоропостижно скончался в возрасте 61 года. Он дослужился до должности главного пивовара нового завода в Лондоне. За три десятилетия в компании он решил десятки практических задач — от оптимальной температуры варки до селекции сортов ячменя — и каждая из них требовала статистических методов для малых выборок.

Его переписка с Фишером и Пирсоном — один из самых увлекательных документов в истории статистики: практик и теоретики спорят о природе вероятности, о границах применимости методов, о том, что важнее — математическая строгость или практическая полезность. Эти дебаты продолжаются и сегодня — в том числе в UX-сообществе, где вопрос «сколько пользователей достаточно для теста?» не имеет универсального ответа.

t-критерий Стьюдента остаётся одним из самых часто используемых статистических методов в мире — и одним из самых часто используемых неправильно. Каждый раз, когда UX-исследователь сравнивает метрики двух вариантов дизайна, он стоит на плечах дублинского пивовара, который сто с лишним лет назад задал себе простой практический вопрос: «Как мне по четырём бочкам понять, хороший ли это ячмень?»

Связанные статьи

Что такое юзабилити — метрики удобства, для измерения которых необходимы статистические методы
Что такое UX — пользовательский опыт как объект количественного исследования
Эвристики Нильсена — качественный метод оценки юзабилити, который дополняет количественные подходы
Закон Фиттса — ещё один пример, когда эмпирическое измерение превратилось в фундаментальный закон проектирования

В предыдущих статьях «Истории UX» — о законе Парето (1897), который определяет приоритеты UX-аудита, и об Иване Сеченове (1901), заложившем научную основу эргономики в России.