Размер выборки: сколько пользователей нужно для теста (1990–1994)

Что произошло

Существует один вопрос, который задаёт каждый менеджер, когда UX-исследователь предлагает провести юзабилити-тестирование: «Сколько пользователей нужно?»

За этим вопросом — бюджет. Каждый участник тестирования — это рекрутинг, вознаграждение, время модератора, время на анализ. Если ответ «пятьдесят» — тестирование не состоится: слишком дорого. Если ответ «три» — менеджер усомнится в достоверности: слишком мало. UX-исследователю нужна цифра, которая одновременно убедительна и экономична. И эта цифра — пять.

История правила пяти пользователей — это история того, как интуитивное наблюдение превратилось в математическую формулу, формула — в индустриальный стандарт, а стандарт — в предмет бесконечных дебатов.

Первым число произнёс Альфонс Чапанис — в 1981 году, в статье о тестировании интерфейсов для начинающих пользователей. Чапанис, пионер юзабилити, заметил по опыту: после пятого-шестого участника новые проблемы почти не появляются. Одни и те же затруднения повторяются от теста к тесту. Это было наблюдение практика, не подкреплённое формальной статистикой.

Через восемь лет за дело взялся Роберт Вирзи (Robert A. Virzi), исследователь из GTE Laboratories (компания, позже ставшая частью Verizon). В 1990 году Вирзи представил результаты на конференции HFES — профессиональной организации, объединявшей специалистов по человеческим факторам с 1957 года.

Вирзи провёл три эксперимента. В каждом группа пользователей выполняла задачи с реальным интерфейсом, а исследователи фиксировали проблемы юзабилити. Затем Вирзи задал вопрос: если бы мы тестировали не всех участников, а только первых пять — сколько проблем мы бы пропустили?

Ответ он получил через биномиальное распределение. Формула проста:

P(обнаружить проблему) = 1 − (1 − p)^n

Где p — вероятность того, что один пользователь столкнётся с конкретной проблемой, а n — количество участников. Если проблема затрагивает 31% пользователей (p = 0.31 — средняя вероятность, полученная Вирзи эмпирически), то при пяти участниках вероятность её обнаружения составляет:

1 − (1 − 0.31)^5 = 1 − 0.69^5 = 1 − 0.156 = 0.844, или ~85%

Пять пользователей — 85% проблем. Наблюдение Чапаниса получило формульное подтверждение.

Но Вирзи пошёл дальше. Он показал три важных следствия:

Первое: серьёзные проблемы обнаруживаются раньше, чем мелкие. Проблема, которая затрагивает 80% пользователей, будет найдена первым же участником с вероятностью 80%. Тремя — с вероятностью 99.2%. Проблема, затрагивающая 10%, при пяти участниках обнаружится с вероятностью лишь 41%. Пять пользователей хорошо ловят частые проблемы — но пропускают редкие.

Второе: каждый следующий пользователь даёт убывающую отдачу. Первый участник обнаруживает примерно треть всех проблем. Второй добавляет ещё четверть. Пятый — ещё несколько процентов. Десятый — почти ничего нового. Кривая «число найденных проблем / число участников» быстро выходит на плато.

Третье: порядок обнаружения проблем не случаен. Более частые и более серьёзные проблемы обнаруживаются первыми. Это значит, что даже небольшое тестирование (3–5 участников) даёт максимальную ценность: оно находит то, что больше всего мешает пользователям.

Четыре года спустя, в 1994 году, Джеймс Р. Льюис (James R. Lewis) из IBM опубликовал статью, в которой тщательно проанализировал тезисы Вирзи. Льюис — тот самый исследователь, который ещё в 1982 году первым применил биномиальное распределение к размеру выборки юзабилити-тестирования. Теперь, двенадцать лет спустя, он вернулся к теме с более зрелым инструментарием.

Льюис подтвердил основные выводы Вирзи — но с оговоркой. В реальности p варьируется: тривиальная ошибка (p = 0.9) находится первым участником, а тонкая контекстная проблема (p = 0.05) требует 36 участников для обнаружения с 85%-ной вероятностью. Среднее p = 0.31 — статистическое допущение, за которым скрывается разброс от очевидных до редких проблем. Пять пользователей ловят частые — и пропускают редкие. А редкие бывают критичными.

Контекст эпохи

Между Вирзи (1990) и Льюисом (1994) произошло событие, которое изменило контекст дискуссии: Якоб Нильсен популяризировал правило пяти.

В 1993 году Нильсен и Том Ландауэр опубликовали статью «A Mathematical Model of the Finding of Usability Problems», в которой вывели ту же формулу независимо от Вирзи и получили среднее p = 0.31. Но Нильсен сделал то, чего не сделали ни Чапанис, ни Вирзи: он превратил статистику в слоган. «Пять пользователей находят 85% проблем» — фраза, которую можно произнести на совещании с директором и получить бюджет на тестирование. Не «биномиальное распределение с параметром p = 0.31», а «пять пользователей». Просто, запоминаемо, убедительно.

Нильсен понимал ограничения — он был учёным и знал математику. Но он также понимал реальность: если формулировка будет сложной, менеджеры не запомнят, бюджет не дадут, тестирование не состоится. Лучше протестировать с пятью, чем не протестировать вообще. Лучше четыре теста по пять, чем один тест с двадцатью. Итеративность — вот что было ключевым: не один идеальный тест, а серия быстрых, каждый из которых выявляет главные проблемы и даёт материал для исправлений.

В контексте 1990 года эта позиция была революционной. Юзабилити-тестирование воспринималось как дорогая академическая процедура: лаборатория, рекрутинг двадцати участников, недели анализа. Формула Вирзи—Нильсена давала контраргумент: не нужно двадцать. Пять — и за неделю. Сэкономленные деньги — на ещё один тест после исправлений.

Значение для UX

Правило пяти пользователей стало, возможно, самым цитируемым фактом в истории UX. И одновременно — одним из самых оспариваемых.

Демократизация тестирования. До Вирзи и Нильсена юзабилити-тестирование было привилегией крупных компаний с исследовательскими лабораториями. После — стало доступным практически каждой команде. Пять участников, один модератор, комната с ноутбуком — минимальная конфигурация, дающая измеримый результат. Это изменило индустрию: если раньше 90% продуктов выходили без тестирования, теперь число сокращалось с каждым годом. Формула дала UX-специалистам аргумент для переговоров с бизнесом.

Итеративная методология. Нильсен встроил правило пяти в более широкую методологию discount usability engineering. Не один тест с большой выборкой, а серия маленьких тестов: 5 пользователей → найти проблемы → исправить → ещё 5 пользователей → найти новые проблемы → исправить. Четыре итерации с пятью участниками (20 пользователей суммарно) эффективнее одного теста с 20 участниками, потому что каждая итерация работает с исправленным продуктом.

Критика и уточнения. В 2001 году Джаред Спул (Jared Spool) — один из самых влиятельных UX-практиков — публично оспорил правило пяти. Его аргумент: формула работает для простых задач с однородной аудиторией. Но реальные продукты используются разными группами (новички и эксперты, молодые и пожилые, носители языка и иностранцы), и проблемы, специфичные для одной группы, пять «средних» пользователей не обнаружат. Для сложных систем с разнородной аудиторией Спул рекомендовал 12–20 участников.

Льюис тоже уточнял: формула чувствительна к распределению p. При расчёте по реальному распределению (а не по среднему) пять пользователей обнаруживают не 85%, а скорее 55—70% проблем. К середине 2010-х UX-сообщество пришло к компромиссу: пять пользователей — хорошая отправная точка для формативного тестирования (поиск проблем для исправления). Для суммативного (сравнение версий, статистическая значимость) нужно 20—40 участников. Для разнородной аудитории — по пять на сегмент.

В UsabilityLab формула работает каждый день. Когда клиент спрашивает «Сколько это стоит?», ответ начинается с цифры: пять пользователей на раунд. Это не потолок, но порог, ниже которого тестирование теряет смысл. Вирзи, Льюис и Нильсен дали UX-исследователям язык для разговора с бизнесом о ценности тестирования.

Связанные статьи

  • Что такое юзабилити — юзабилити-тестирование, для которого Вирзи и Льюис рассчитывали размер выборки, — центральный метод оценки юзабилити по ISO 9241-11.
  • Рождение юзабилити (1977–1985) — Чапанис в 1981 году первым предположил, что 5–6 пользователей достаточно. Вирзи и Льюис формализовали его интуицию.
  • Метод «мыслей вслух» (1980–1982) — Джеймс Льюис в 1982 году впервые применил биномиальное распределение к размеру выборки. В статье 1994 года он развил и уточнил этот подход.
  • Нильсен и Молич: эвристическая оценка (1990) — Нильсен популяризировал правило пяти пользователей как часть методологии discount usability engineering, включающей и эвристическую оценку.
  • GOMS: первая модель HCI (1983) — GOMS позволяет предсказать время выполнения задачи без пользователей. Формула Вирзи отвечает на обратный вопрос: сколько пользователей нужно, когда предсказание невозможно и нужен эксперимент.
  • Закон Миллера — ещё одно магическое число в UX: 7 плюс-минус 2. Правило пяти — второе по цитируемости.

Вопросы и ответы

Кто первым математически обосновал правило пяти пользователей?

Роберт Вирзи из компании GTE Laboratories в 1990 году на конференции HFES представил три эксперимента, в которых применил биномиальное распределение для расчёта размера выборки юзабилити-тестирования. Формула P = 1 - (1-p)^n показывает вероятность обнаружения проблемы при n пользователях, если один пользователь обнаруживает её с вероятностью p. При p=0.31 и n=5 вероятность составляет около 85%. Вирзи формализовал интуицию Чапаниса (1981), который первым предположил, что 5–6 пользователей достаточно.

Что добавил к правилу пяти Джеймс Льюис?

Джеймс Р. Льюис из IBM в 1994 году опубликовал статью, в которой подтвердил тезисы Вирзи, но добавил важную оговорку: вероятность обнаружения проблемы (p) не является константой — она зависит от характера проблемы, сложности задачи и состава выборки. Серьёзные проблемы имеют высокий p и обнаруживаются быстро. Редкие или контекстно-зависимые проблемы имеют низкий p, и для их обнаружения пяти пользователей может быть недостаточно.

Почему правило пяти пользователей критикуют?

Критики (Спул, 2001; Вулрич и др.) указывают, что формула работает только при допущении фиксированного p — средней вероятности обнаружения проблемы. В реальности p варьируется от проблемы к проблеме: тривиальные ошибки (p=0.9) находят все, а тонкие контекстные проблемы (p=0.05) не находит почти никто. Пять пользователей хорошо обнаруживают частые проблемы, но пропускают редкие. Для сложных систем с разнородными пользователями может потребоваться 15–20 участников.