Что произошло
1998 год оказался годом неудобных вопросов. Вопросов, которые юзабилити-сообщество задало самому себе — и получило ответы, которые никому не понравились.
Первый вопрос задали Нильс Якобсен, Мортен Герцум и Бонни Джон в статье «The Evaluator Effect in Usability Tests». Вопрос звучал просто: если два эксперта проводят эвристическую оценку одного и того же интерфейса — находят ли они одни и те же проблемы?
Ответ: нет. Пересечение списков проблем между оценщиками составляло примерно 20%. Каждый пятый пункт — общий. Четыре из пяти — уникальные для конкретного оценщика. Это означало, что результат юзабилити-оценки — не свойство интерфейса. Это свойство пары «интерфейс + конкретный эксперт». Смени эксперта — получишь другой список проблем. Другие приоритеты. Другие рекомендации.
Якобсен, Герцум и Джон назвали это эффектом оценщика (evaluator effect). Термин звучит нейтрально, почти технически. За ним скрывалась бомба: метод, который считался объективным инструментом, оказался субъективным. Не полностью субъективным — эксперты всё-таки находили реальные проблемы, а не придумывали их. Но субъективным в том смысле, что каждый эксперт привносил собственный опыт, собственные предубеждения, собственные слепые пятна.
Параллельно Рольф Молич — тот самый Молич, соавтор эвристической оценки вместе с Нильсеном — организовал эксперимент, который подтвердил и расширил выводы Якобсена. Молич запустил CUE-1 (Comparative Usability Evaluation) — первое в истории сравнительное исследование юзабилити-оценок.
Условия были простыми. Девять независимых команд — профессиональных юзабилити-консультантов из разных компаний — получили задание: оценить один и тот же веб-сайт. Каждая команда работала самостоятельно, по своей методологии, в своём темпе. Результаты собирались централизованно.
Совокупно девять команд нашли 310 проблем юзабилити. Из них только 9 проблем были обнаружены всеми девятью командами. Девять из трёхсот десяти. Менее трёх процентов. Среднее перекрытие между любыми двумя командами составляло около 10–15%. Каждая команда видела свой фрагмент картины, и фрагменты почти не пересекались.
Третий удар нанесли Уэйн Грэй и Мэрилин Солзман в статье с провокационным названием «Damaged Merchandise?» — «Бракованный товар?». Грэй и Солзман пересмотрели ключевые эксперименты, сравнивавшие методы юзабилити друг с другом: эвристическую оценку с когнитивным разбором, когнитивный анализ с юзабилити-тестированием. Их вывод был разгромным: методологические ошибки — неконтролируемые переменные, малые выборки, неверные статистические тесты — делали выводы этих экспериментов ненадёжными. Нельзя утверждать, что метод А лучше метода Б, если сам эксперимент некорректен.
И, наконец, четвёртый вклад 1998 года — чисто статистический, но с прямым влиянием на практику юзабилити. Алан Агрести и Брент Коулл опубликовали статью об Adjusted Wald interval — скорректированном доверительном интервале для биноминальных пропорций в малых выборках.
Почему это важно для юзабилити? Потому что юзабилити-тесты — это почти всегда малые выборки. Пять пользователей. Десять. Редко — пятнадцать. Когда из пяти участников трое выполнили задачу успешно, показатель успешности — 60%. Но доверительный интервал для пропорции 3/5 при стандартном методе Вальда — абсурдно широкий и при этом некорректный. Стандартный интервал может дать нижнюю границу ниже нуля для малых выборок — что бессмысленно.
Агрести и Коулл предложили элегантную поправку: прибавить два «виртуальных» успеха и два «виртуальных» неудачи к наблюдаемым данным перед расчётом интервала. Формула проста, результат надёжен. Для выборки из пяти человек разница между стандартным и скорректированным интервалом — существенная. Adjusted Wald стал стандартом для расчёта доверительных интервалов в UX-исследованиях, и Джефф Сауро впоследствии популяризировал его применение в юзабилити-метриках.
Контекст эпохи
К 1998 году юзабилити как профессия существовала около пятнадцати лет. UXPA объединяла сотни специалистов. Лаборатории работали в десятках компаний. Методы — эвристическая оценка, юзабилити-тестирование, когнитивный разбор, опросники — были описаны, опубликованы, преподавались в университетах. Индустрия перешла от вопроса «нужно ли юзабилити?» к вопросу «как делать юзабилити правильно?».
И вот тут выяснилось, что ответ на второй вопрос не так прост, как казалось.
Нильсен в 1990 году показал, что 3–5 экспертов находят 60–75% проблем. Вирзи и Льюис рассчитали, что 5 пользователей обнаруживают 85% проблем. Эти цифры стали аргументами для менеджеров: юзабилити — дёшево и эффективно. Но работы 1998 года добавили к этим цифрам звёздочку: да, 5 экспертов найдут 75% проблем — но каких проблем? И совпадут ли их списки?
Молич, соавтор эвристической оценки, оказался её самым честным критиком. Он не отказался от метода — он показал его ограничения. CUE-1 стал первым, но не последним. За ним последовали CUE-2, CUE-3, CUE-4. Каждое исследование подтверждало: расхождения между оценщиками — не артефакт, а свойство процесса. Молич не разрушал инструмент — он делал его калиброванным.
Веб к 1998 году насчитывал миллионы сайтов. Каждый нуждался в оценке. Каждому клиенту нужен был отчёт. И клиенты начинали задавать неудобный вопрос: «Мы заказали юзабилити-аудит у двух компаний — и получили два разных списка проблем. Кто прав?». Работы 1998 года дали ответ: оба правы — и оба неполны. Это не баг, а свойство метода.
Значение для UX
Работы 1998 года не уничтожили юзабилити-методы. Они взрослили их.
Несколько оценщиков — не роскошь, а необходимость. Эффект оценщика дал формальное обоснование тому, что Нильсен интуитивно рекомендовал: привлекать 3–5 независимых экспертов. Не потому, что один эксперт ленив или некомпетентен — а потому, что каждый человек видит мир через свою призму. Несколько призм дают более полную картину. В UsabilityLab экспертную оценку проводят минимум два специалиста, работающие независимо. Результаты объединяются, расхождения обсуждаются. Это не перестраховка — это следствие CUE.
Стандартизация процедур. CUE показал: расхождения между командами были вызваны не только субъективностью экспертов, но и различиями в процедурах. Одни команды тестировали с пользователями, другие — экспертно. Одни фиксировали каждую мелочь, другие — только критичные проблемы. Одни давали конкретные задания, другие — свободный обзор. Результат: списки проблем несравнимы не потому, что эксперты плохие, а потому, что они делали разные вещи. Вывод: если хочешь сравнимых результатов — стандартизируй процедуру. Общие задания, общие критерии серьёзности, общий формат отчёта.
Честная статистика. Adjusted Wald interval Агрести-Коулла решил техническую, но критически важную задачу. Когда UX-исследователь пишет в отчёте «70% пользователей выполнили задачу успешно» — менеджер воспринимает это как точное число. Но при выборке в 5 человек 70% — это 3,5 из 5, а доверительный интервал уходит от 30% до 95%. Adjusted Wald позволяет корректно рассчитать этот интервал и показать клиенту: «от 25% до 95% при 95%-й уверенности». Это отрезвляет — и это честно.
Самокритика как признак зрелости. 1998 год стал для юзабилити тем, чем кризис воспроизводимости стал для психологии двадцатью годами позже. Молодая дисциплина набралась мужества посмотреть на себя объективно — и признать: наши методы работают, но не так точно, как мы заявляли. Эффект оценщика не исчез после его обнаружения. Он никуда не денется — потому что люди субъективны. Но теперь индустрия знает о нём и учитывает. Знание своих ограничений — это не слабость. Это профессионализм.
Связанные статьи
- Эвристическая оценка Нильсена и Молича (1990) — метод, который CUE-1 подверг проверке. Молич, соавтор эвристической оценки, стал её самым честным критиком.
- Размер выборки: сколько пользователей нужно для теста (1990) — математика малых выборок, к которой Adjusted Wald interval добавил корректную статистику.
- Что такое юзабилити — юзабилити как измеримая величина: работы 1998 года показали, насколько сложно измерять её корректно.
- PSSUQ и SUMI (1992) — стандартизированные опросники, которые частично решают проблему субъективности, давая фиксированный набор вопросов.
- Эвристики Нильсена — десять принципов, по которым проводится экспертная оценка. Эффект оценщика показал, что даже с общим списком принципов эксперты расходятся.
- SUS: шкала юзабилити (1986) — стандартизированный инструмент, минимизирующий субъективность оценщика за счёт фиксированных вопросов.