Эффект оценщика, CUE и статистика юзабилити-тестов (1998)

Q: Что такое эффект оценщика в юзабилити?

Эффект оценщика (evaluator effect) — феномен, при котором разные эксперты, оценивающие один и тот же интерфейс, находят существенно разные списки проблем юзабилити. Термин ввели Якобсен, Герцум и Бонни Джон в статье 1998 года. Их исследование показало, что пересечение списков проблем между оценщиками составляет всего около 20%. Это означает, что результат юзабилити-оценки сильно зависит от того, кто именно её проводит.

Q: Что такое CUE и какие результаты показало первое исследование?

CUE (Comparative Usability Evaluation) — серия экспериментов, организованных датским исследователем Рольфом Моличем начиная с 1998 года. В CUE-1 девять независимых команд параллельно оценивали один и тот же веб-сайт. Команды нашли в совокупности 310 проблем юзабилити, но только 9 из них были обнаружены всеми командами. Результат продемонстрировал масштаб расхождений: каждая команда видела свой «срез» проблем.

Q: Что такое Adjusted Wald interval и зачем он нужен в юзабилити?

Adjusted Wald interval (интервал Агрести-Коулла) — статистический метод построения доверительных интервалов для пропорций в малых выборках, предложенный Агрести и Коуллом в 1998 году. В юзабилити-тестировании, где выборки обычно составляют 5–15 человек, стандартный метод Вальда даёт неточные интервалы. Adjusted Wald добавляет к числителю и знаменателю корректировку, что даёт более надёжные результаты. Метод стал стандартом для расчёта доверительных интервалов в UX-исследованиях.

Что произошло

1998 год оказался годом неудобных вопросов. Вопросов, которые юзабилити-сообщество задало самому себе — и получило ответы, которые никому не понравились.

Первый вопрос задали Нильс Якобсен, Мортен Герцум и Бонни Джон в статье «The Evaluator Effect in Usability Tests». Вопрос звучал просто: если два эксперта проводят эвристическую оценку одного и того же интерфейса — находят ли они одни и те же проблемы?

Ответ: нет. Пересечение списков проблем между оценщиками составляло примерно 20%. Каждый пятый пункт — общий. Четыре из пяти — уникальные для конкретного оценщика. Это означало, что результат юзабилити-оценки — не свойство интерфейса. Это свойство пары «интерфейс + конкретный эксперт». Смени эксперта — получишь другой список проблем. Другие приоритеты. Другие рекомендации.

Якобсен, Герцум и Джон назвали это эффектом оценщика (evaluator effect). Термин звучит нейтрально, почти технически. За ним скрывалась бомба: метод, который считался объективным инструментом, оказался субъективным. Не полностью субъективным — эксперты всё-таки находили реальные проблемы, а не придумывали их. Но субъективным в том смысле, что каждый эксперт привносил собственный опыт, собственные предубеждения, собственные слепые пятна.

Параллельно Рольф Молич — тот самый Молич, соавтор эвристической оценки вместе с Нильсеном — организовал эксперимент, который подтвердил и расширил выводы Якобсена. Молич запустил CUE-1 (Comparative Usability Evaluation) — первое в истории сравнительное исследование юзабилити-оценок.

Условия были простыми. Девять независимых команд — профессиональных юзабилити-консультантов из разных компаний — получили задание: оценить один и тот же веб-сайт. Каждая команда работала самостоятельно, по своей методологии, в своём темпе. Результаты собирались централизованно.

Совокупно девять команд нашли 310 проблем юзабилити. Из них только 9 проблем были обнаружены всеми девятью командами. Девять из трёхсот десяти. Менее трёх процентов. Среднее перекрытие между любыми двумя командами составляло около 10–15%. Каждая команда видела свой фрагмент картины, и фрагменты почти не пересекались.

Третий удар нанесли Уэйн Грэй и Мэрилин Солзман в статье с провокационным названием «Damaged Merchandise?» — «Бракованный товар?». Грэй и Солзман пересмотрели ключевые эксперименты, сравнивавшие методы юзабилити друг с другом: эвристическую оценку с когнитивным разбором, когнитивный анализ с юзабилити-тестированием. Их вывод был разгромным: методологические ошибки — неконтролируемые переменные, малые выборки, неверные статистические тесты — делали выводы этих экспериментов ненадёжными. Нельзя утверждать, что метод А лучше метода Б, если сам эксперимент некорректен.

И, наконец, четвёртый вклад 1998 года — чисто статистический, но с прямым влиянием на практику юзабилити. Алан Агрести и Брент Коулл опубликовали статью об Adjusted Wald interval — скорректированном доверительном интервале для биноминальных пропорций в малых выборках.

Почему это важно для юзабилити? Потому что юзабилити-тесты — это почти всегда малые выборки. Пять пользователей. Десять. Редко — пятнадцать. Когда из пяти участников трое выполнили задачу успешно, показатель успешности — 60%. Но доверительный интервал для пропорции 3/5 при стандартном методе Вальда — абсурдно широкий и при этом некорректный. Стандартный интервал может дать нижнюю границу ниже нуля для малых выборок — что бессмысленно.

Агрести и Коулл предложили элегантную поправку: прибавить два «виртуальных» успеха и два «виртуальных» неудачи к наблюдаемым данным перед расчётом интервала. Формула проста, результат надёжен. Для выборки из пяти человек разница между стандартным и скорректированным интервалом — существенная. Adjusted Wald стал стандартом для расчёта доверительных интервалов в UX-исследованиях, и Джефф Сауро впоследствии популяризировал его применение в юзабилити-метриках.

Контекст эпохи

К 1998 году юзабилити как профессия существовала около пятнадцати лет. UXPA объединяла сотни специалистов. Лаборатории работали в десятках компаний. Методы — эвристическая оценка, юзабилити-тестирование, когнитивный разбор, опросники — были описаны, опубликованы, преподавались в университетах. Индустрия перешла от вопроса «нужно ли юзабилити?» к вопросу «как делать юзабилити правильно?».

И вот тут выяснилось, что ответ на второй вопрос не так прост, как казалось.

Нильсен в 1990 году показал, что 3–5 экспертов находят 60–75% проблем. Вирзи и Льюис рассчитали, что 5 пользователей обнаруживают 85% проблем. Эти цифры стали аргументами для менеджеров: юзабилити — дёшево и эффективно. Но работы 1998 года добавили к этим цифрам звёздочку: да, 5 экспертов найдут 75% проблем — но каких проблем? И совпадут ли их списки?

Молич, соавтор эвристической оценки, оказался её самым честным критиком. Он не отказался от метода — он показал его ограничения. CUE-1 стал первым, но не последним. За ним последовали CUE-2, CUE-3, CUE-4. Каждое исследование подтверждало: расхождения между оценщиками — не артефакт, а свойство процесса. Молич не разрушал инструмент — он делал его калиброванным.

Веб к 1998 году насчитывал миллионы сайтов. Каждый нуждался в оценке. Каждому клиенту нужен был отчёт. И клиенты начинали задавать неудобный вопрос: «Мы заказали юзабилити-аудит у двух компаний — и получили два разных списка проблем. Кто прав?». Работы 1998 года дали ответ: оба правы — и оба неполны. Это не баг, а свойство метода.

Значение для UX

Работы 1998 года не уничтожили юзабилити-методы. Они взрослили их.

Несколько оценщиков — не роскошь, а необходимость. Эффект оценщика дал формальное обоснование тому, что Нильсен интуитивно рекомендовал: привлекать 3–5 независимых экспертов. Не потому, что один эксперт ленив или некомпетентен — а потому, что каждый человек видит мир через свою призму. Несколько призм дают более полную картину. В UsabilityLab экспертную оценку проводят минимум два специалиста, работающие независимо. Результаты объединяются, расхождения обсуждаются. Это не перестраховка — это следствие CUE.

Стандартизация процедур. CUE показал: расхождения между командами были вызваны не только субъективностью экспертов, но и различиями в процедурах. Одни команды тестировали с пользователями, другие — экспертно. Одни фиксировали каждую мелочь, другие — только критичные проблемы. Одни давали конкретные задания, другие — свободный обзор. Результат: списки проблем несравнимы не потому, что эксперты плохие, а потому, что они делали разные вещи. Вывод: если хочешь сравнимых результатов — стандартизируй процедуру. Общие задания, общие критерии серьёзности, общий формат отчёта.

Честная статистика. Adjusted Wald interval Агрести-Коулла решил техническую, но критически важную задачу. Когда UX-исследователь пишет в отчёте «70% пользователей выполнили задачу успешно» — менеджер воспринимает это как точное число. Но при выборке в 5 человек 70% — это 3,5 из 5, а доверительный интервал уходит от 30% до 95%. Adjusted Wald позволяет корректно рассчитать этот интервал и показать клиенту: «от 25% до 95% при 95%-й уверенности». Это отрезвляет — и это честно.

Самокритика как признак зрелости. 1998 год стал для юзабилити тем, чем кризис воспроизводимости стал для психологии двадцатью годами позже. Молодая дисциплина набралась мужества посмотреть на себя объективно — и признать: наши методы работают, но не так точно, как мы заявляли. Эффект оценщика не исчез после его обнаружения. Он никуда не денется — потому что люди субъективны. Но теперь индустрия знает о нём и учитывает. Знание своих ограничений — это не слабость. Это профессионализм.

Связанные статьи

Эвристическая оценка Нильсена и Молича (1990) — метод, который CUE-1 подверг проверке. Молич, соавтор эвристической оценки, стал её самым честным критиком.
Размер выборки: сколько пользователей нужно для теста (1990) — математика малых выборок, к которой Adjusted Wald interval добавил корректную статистику.
Что такое юзабилити — юзабилити как измеримая величина: работы 1998 года показали, насколько сложно измерять её корректно.
PSSUQ и SUMI (1992) — стандартизированные опросники, которые частично решают проблему субъективности, давая фиксированный набор вопросов.
Эвристики Нильсена — десять принципов, по которым проводится экспертная оценка. Эффект оценщика показал, что даже с общим списком принципов эксперты расходятся.
SUS: шкала юзабилити (1986) — стандартизированный инструмент, минимизирующий субъективность оценщика за счёт фиксированных вопросов.

Что произошло

Контекст эпохи

Значение для UX

Связанные статьи

Вопросы и ответы

Нужна помощь с UX?