Сколько нужно респондентов для юзабилити-тестирования

18 июля 2018 г.

В юзабилити-сфере, так же как и в маркетинге, существуют качественные и количественные методы исследования. Из качественных мы узнаём, как пользователи взаимодействуют с интерфейсом, какие ошибки совершают и почему. А количественные проводят, чтобы получить статистически достоверные данные, поэтому, в отличие от качественных, они требуют участия сотен респондентов.

Сразу определимся, что очное модерируемое юзабилити-тестирование, о котором пойдет речь в статье — это качественное исследование. Мы ищем и описываем юзабилити-проблемы, которые мешают пользователю выполнить задачу в интерфейсе. Конечно, в отчете для каждой проблемы мы обязательно указываем, сколько респондентов с ней столкнулись, но достоверной статистики нельзя получить, основываясь на данных, полученных на 8 (5, 10) респондентах.

Правда ли, что пять респондентов находят 85% проблем

Тот, кто хотя бы немного интересовался юзабилити-исследованиями, наверняка встречал правило: «Пять респондентов находят 85% проблем интерфейса». Давайте для начала разберемся, откуда оно взялось и что значит на самом деле.

В 1993 году Якоб Нильсен и Томас Ландауэр опубликовали статью, в которой описали формулу зависимости числа найденных проблем (Nn) от количества тестируемых пользователей (n):

Nn = N(1- (1- λ)n).

N — число всех существующих проблем в интерфейсе. λ — коэффициент, обозначающий долю проблем, которую обнаруживает один респондент на тестировании, или усредненная вероятность найти проблему за одно тестирование.

Коэффициент λ зависит от многих факторов, в частности от типа и сложности интерфейса. Нильсен и Ландауэр выводят его эмпирически из серии своих исследований и получают среднее значение равное 0.31. Таким образом, если усредненная вероятность обнаружить проблему за одно тестирование равняется 31%, то при всех прочих равных условиях с ней столкнется около трети всех пользователей продукта.

Маленькое примечание: формула Нильсена и Ландауэра основана на предположении, что вероятность обнаружения одной проблемы не влияет на вероятность обнаружения другой, и вероятности обнаружения всех проблем в интерфейсе одинаковы. Конечно, это упрощение, но оно позволяет хотя бы приблизительно оценить число респондентов, необходимых для тестирования, или процент проблем, которые они найдут.

Подставляя в формулу коэффициент λ=0.31 и число респондентов n, мы получаем, что 5 респондентов обнаруживает примерно 85% всех проблем (Nn / N). Об этом и пишет Нильсен в своей статье уже в 2000 году. После выхода статьи правило стало аксиомой и цитируется юзабилистами всего мира. Но точнее было бы говорить, что 5 респондентов находят примерно 85% всех проблем, вероятность обнаружения которых в среднем равняется 31%, то есть актуальных примерно для трети целевой аудитории продукта. На восьми респондентах таких проблем удастся найти еще больше, почти 95%.

Почему лучше не брать меньше пяти респондентов

Скажем, нас интересуют проблемы с которыми столкнутся только 20% или 10% пользователей, то есть актуальные для каждого пятого или каждого десятого пользователя. На рисунке ниже видно, как меняется кривая графика в зависимости от частотности исследуемых проблем.

Рисунок 1 — График, отображающий долю найденных проблем разной частотности в зависимости от числа участников юзабилити-тестирования

Если мы возьмем, например, трех респондентов, то обнаружим в основном самые «очевидные» проблемы (с частотностью 50% и выше). С такими проблемами сталкивается половина пользователей. Проблем с частотностью 30% (таких, согласно исследованиям Нильсена и Ландауэра, большинство) мы найдем примерно 65%. Лучше, чем ничего, но хотелось бы больше.

Если взять 5 респондентов, мы найдем большую часть проблем с частотностью 20% и выше. При этом доля найденных проблем с частотностью 10% и меньше будет всё ещё очень мала.

Мы обычно приглашаем на тестирования 8 человек. Это минимальное четное число респондентов, при котором мы найдем больше половины проблем с частотностью 10%, то есть актуальных для каждого десятого, и почти все более частотные проблемы.

Ещё одна причина, по которой мы не любим «экономить» на респондентах, заключается в том, что пользовательская аудитория редко бывает однородной. Поэтому мы стараемся брать на тестирование по 2–3 респондента из разных социальных и возрастных групп, и обладающих разным пользовательским опытом.

Можно ли все-таки брать пять респондентов? В принципе, можно, но тогда понадобится не одно тестирование, а несколько последовательных, как рекомендовал Нильсен в своей классической статье. На первом тестировании первые пять респондентов найдут 85% проблем. После того, как эти проблемы будут исправлены, необходимо провести тестирование снова. Следующие пять респондентов найдут 85% оставшихся проблем. Их необходимо исправить, провести следующее тестирование, и так далее.

Однако Нильсен считал, что вероятность обнаружения проблем в каждом тестировании будет составлять 31%, хотя здравый смысл подсказывает другое: с каждым последующим улучшением в интерфейсе будут оставаться все более мелкие и труднообнаружимые проблемы. Поэтому на каком-то этапе тестирования на пяти респондентах окажутся неинформативными, и их надо будет либо прекращать, либо увеличивать число участников.

Почему нет смысла брать много респондентов

Чем больше редких проблем мы хотим найти, тем больше респондентов придется протестировать. Например, чтобы найти 85% ошибок с частотностью 5% понадобится 37 респондентов (Рисунок 2), а для ещё более редких (1%) — 189 респондентов. Но нужно ли это делать?

Рисунок 2 — График, отображающий долю найденных низкочастнотных юзабилити-проблем в зависимости от числа респондентов

По опыту наших специалистов, серьезные юзабилити-проблемы выявляются уже на первых 4–5 респондентах, как и писал Нильсен. Тестирование на каждом новом респонденте даёт все меньше и меньше новой информации. Это хорошо видно на первом графике (Рисунок 1): доля найденных высокочастотных проблем резко возрастает на первых 3–4 респондентах, а далее рост замедляется. А вот доля найденных низкочастотных проблем нарастает медленно.

Поэтому увеличивать число респондентов необходимо, если вам необходимо найти редкие проблемы. Нужно понимать, что юзабилити-проблема с частотностью 5% будет актуальна для 1 из 20 пользователей. Тратить деньги на ее поиск и исправление, особенно если она не приводит к серьезным трудностям в работе с сервисом, имеет смысл только в том случае, если у вашего продукта многомиллионная целевая аудитория.

Когда нужно много респондентов

Как мы уже говорили, больше респондентов имеет смысл брать для сервисов масштаба Amazon, которыми пользуются много миллионов людей. Ведь даже с редкой проблемой потенциально столкнется сотни тысяч человек, что может привести к серьезным убыткам для бизнеса.

Мы всегда увеличиваем число респондентов, если среди пользователей можно выделить несколько групп, которые взаимодействуют с интерфейсом по абсолютно разным сценариям или решают абсолютно разные задачи. Также число респондентов увеличивается как минимум вдвое, если перед нами стоит задача сравнить KPI двух разных интерфейсов, например, вашего и конкурентов. Как правило, в таких случаях мы берем в среднем 12 человек на каждую группу, причем следим, чтобы группы были однородными по составу.

В остальных случаях, чтобы получить представление о юзабилити-проблемах интерфейса, достаточно восьми респондентов.

В заключение

Итак, подведем итоги:

в большинстве случаев 8 респондентов достаточно для юзабилити-тестирования;
меньше респондентов можно брать, если вы планируете проводить цикл последовательных тестирований;
больше респондентов стоит брать, если с интерфейсом взаимодействуют группы пользователей, различающиеся по целям и задачам, нужно выявить редкие юзабилити-поблемы или сравнить два интерфейса.

Наши менеджеры помогут определить оптимальное число респондентов, исходя из задач тестирования, особенностей продукта и вашей целевой аудитории.

Подробнее о юзабилити-тестировании и других методах — в справочнике по UX.