Нильсен и Молич: эвристическая оценка (1990)

Q: Что такое эвристическая оценка и кто её придумал?

Эвристическая оценка — метод экспертной проверки интерфейса, при котором 3–5 оценщиков независимо анализируют интерфейс на соответствие набору эвристик (принципов юзабилити). Метод предложили Якоб Нильсен и Рольф Молич в 1990 году в статье «Heuristic Evaluation of User Interfaces», представленной на конференции CHI'90 в Сиэтле. Исходный список включал 9 эвристик, в 1994 году Нильсен расширил его до 10.

Q: Что такое правило пяти пользователей Нильсена?

Якоб Нильсен, опираясь на работы Чапаниса (1981) и математическую модель Вирзи (1990), показал, что пять участников юзабилити-тестирования находят примерно 85% проблем юзабилити. Формула основана на биномиальном распределении: при средней вероятности обнаружения проблемы одним пользователем p=0.31, пять тестировщиков дают уровень охвата свыше 80%. Это наблюдение стало аргументом в пользу частых небольших тестов вместо редких масштабных исследований.

Q: Чем эвристическая оценка отличается от юзабилити-тестирования?

Эвристическая оценка — экспертный метод: специалисты проверяют интерфейс по списку принципов без участия реальных пользователей. Юзабилити-тестирование — эмпирический метод: реальные пользователи выполняют задачи, а исследователь наблюдает за их поведением. Эвристическая оценка дешевле и быстрее, но не выявляет проблемы, связанные с реальным контекстом использования. Нильсен всегда подчёркивал, что методы дополняют, а не заменяют друг друга.

Что произошло

Сиэтл, апрель 1990 года. Конференция CHI’90 — ежегодное собрание мирового HCI-сообщества, организованное SIGCHI. Среди десятков докладов два привлекают особое внимание, и оба связаны с именем одного человека — Якоба Нильсена.

Первый доклад — статья «Heuristic Evaluation of User Interfaces», написанная в соавторстве с Рольфом Моличем. Второй — развитие идеи многочисленных небольших юзабилити-тестов с пятью участниками на каждом этапе. Вместе эти две работы сформировали подход, который Нильсен позже назовёт discount usability engineering — экономное юзабилити.

Якоб Нильсен защитил докторскую диссертацию в Техническом университете Дании (DTU) в 1988 году. Его научный руководитель и соавтор — Рольф Молич — был практикующим консультантом по юзабилити, одним из немногих в Дании. Молич не был кабинетным учёным: он работал с реальными компаниями, оценивал реальные интерфейсы и знал, что в реальности крупные юзабилити-исследования — роскошь, которую большинство компаний позволить себе не могут.

Именно эта прагматичная позиция стала отправной точкой. Молич и Нильсен задались вопросом: можно ли оценить юзабилити интерфейса без пользователей? Не заменяя тестирование полностью, а дополняя его — быстрым, дешёвым методом, который выявит очевидные проблемы до того, как за них заплатят реальные люди.

Их ответ — эвристическая оценка. Суть метода проста. Берётся группа из 3–5 экспертов. Каждый независимо проходит интерфейс, сверяя его с набором принципов юзабилити — эвристик. Каждое нарушение фиксируется. Затем результаты объединяются. Один эксперт находит в среднем 35% проблем. Три — примерно 60%. Пять — около 75%. Независимость критически важна: если эксперты работают вместе, они влияют друг на друга, и групповое мышление подавляет индивидуальные наблюдения.

Исходный список включал девять эвристик. Среди них: простой и естественный диалог; язык пользователя вместо системного жаргона; минимизация нагрузки на память; последовательность и стандарты; обратная связь; чётко обозначенные выходы; быстрый доступ к часто используемым функциям; минимум информации, не относящейся к задаче; понятные сообщения об ошибках. Каждая эвристика — не абстрактный принцип, а проверяемое утверждение: «Использует ли интерфейс язык пользователя?» — да или нет, с конкретными примерами.

В 1994 году Нильсен переработал список. Вместо девяти стало десять эвристик, и именно в этом виде они вошли в историю: видимость состояния системы, соответствие между системой и реальным миром, свобода и контроль пользователя, последовательность и стандарты, предотвращение ошибок, узнавание вместо припоминания, гибкость и эффективность, эстетика и минимализм, помощь при ошибках, справка и документация. Десять эвристик Нильсена — текст объёмом в одну страницу, который знает каждый UX-специалист в мире.

Параллельно с эвристической оценкой Нильсен развивал вторую идею — правило пяти пользователей. Идея не была новой: ещё в 1981 году Чапанис предположил, что 5–6 участников достаточно для обнаружения большинства проблем. Но Нильсен пошёл дальше. Он не просто повторил эту цифру — он встроил её в методологию. Вместо одного большого теста с 20 участниками — четыре маленьких теста по пять участников на разных этапах разработки. Каждый тест выявляет основные проблемы, проблемы исправляются, следующий тест проверяет исправления и выявляет новые. Итеративный цикл, в котором тестирование встроено в процесс, а не приклеено к нему в конце.

Контекст эпохи

К 1990 году юзабилити как дисциплина прошло путь от академической концепции до корпоративной практики. Десятки лабораторий работали в Microsoft, IBM, Apple, Sun, AT&T. Но между лабораториями крупных корпораций и остальным миром зияла пропасть.

Юзабилити-тестирование в 1990 году — это дорого. Лаборатория с зеркалом Гезелла, видеозапись, рекрутинг участников, модератор, аналитик. Один полноценный тест обходился в десятки тысяч долларов. Для Microsoft или IBM это — строка в бюджете. Для стартапа или средней компании — неподъёмная сумма. Результат: большинство программных продуктов выходили на рынок без какой-либо проверки юзабилити.

World Wide Web ещё не существовал: Тим Бернерс-Ли опубликует первое предложение по гипертекстовому проекту в 1989 году, первый веб-сайт заработает в 1991-м. Но персональные компьютеры проникли во все сферы. Бухгалтерия, складской учёт, документооборот, издательское дело — всё перемещалось на экраны мониторов. Количество интерфейсов, нуждающихся в оценке, росло экспоненциально. Количество юзабилити-специалистов — арифметически.

Нужен был метод, который мог бы масштабироваться. Метод, который не требовал лаборатории, не требовал рекрутинга участников, не требовал недель работы. Эвристическая оценка решала именно эту проблему: три эксперта, несколько часов, список из девяти (потом десяти) принципов — и на выходе список проблем с привязкой к конкретным элементам интерфейса.

Нильсен работал на стыке двух традиций. Одна — скандинавская школа проектирования, с её вниманием к участию пользователей и демократизации технологий. Другая — американская корпоративная культура, с её вниманием к ROI и масштабируемости. Из первой он взял чувствительность к потребностям людей. Из второй — умение продавать идеи менеджменту. Эвристическая оценка — это метод, который можно «продать» руководителю: быстро, недорого, результат через два дня.

Молич привнёс ещё одно измерение. Параллельно с работой над эвристиками он провёл знаменитый эксперимент CUE (Comparative Usability Evaluation): дал нескольким группам экспертов один и тот же интерфейс для оценки. Результаты шокировали: разные группы находили разные проблемы. Перекрытие было удивительно малым. Молич был честен: ни один метод не идеален, и эвристическая оценка — не исключение. Она находит много, но не всё. И то, что найдёт одна группа экспертов, другая может пропустить.

Значение для UX

Эвристическая оценка стала самым распространённым методом экспертной оценки интерфейсов в мире. И на это есть три причины.

Порог входа. Чтобы провести юзабилити-тестирование, нужна лаборатория (или хотя бы тихая комната), рекрутинг, модерация, анализ видеозаписей. Чтобы провести эвристическую оценку, нужен специалист, интерфейс и список из десяти принципов. Один человек за один день может пройти десятки экранов. Этот низкий порог входа сделал метод доступным для команд любого размера и бюджета.

Язык общения. Десять эвристик Нильсена дали UX-специалистам общий словарь. До Нильсена каждый эксперт формулировал проблемы по-своему: «неудобная навигация», «сложный интерфейс», «непонятно, что делать». После Нильсена — «нарушение эвристики 1: пользователь не видит состояние системы», «нарушение эвристики 4: одно и то же действие называется по-разному на разных экранах». Конкретно, однозначно, проверяемо. Этот общий язык позволяет передавать результаты от эксперта разработчику без потери смысла.

Правило пяти и экономика тестирования. Нильсен не просто повторил наблюдение Чапаниса. Он превратил число в аргумент. «Вам не нужно 50 участников и полгода. Вам нужно 5 участников и неделя. А потом ещё 5 и ещё неделя. Четыре итерации вместо одного большого теста.» Этот аргумент разрушил главное возражение менеджеров — «юзабилити-тестирование слишком дорого». Нильсен показал, что не тестировать — дороже.

Критики указывают на ограничения метода. Эвристическая оценка находит поверхностные проблемы — несогласованность терминологии, отсутствие обратной связи, неудачные формулировки. Но она плохо выявляет проблемы, связанные с контекстом: когда интерфейс формально корректен, но не соответствует реальным сценариям использования. Для этого нужны реальные пользователи — юзабилити-тестирование и метод мыслей вслух. Нильсен всегда подчёркивал: эвристики — не замена тестированию, а дополнение. Сначала эвристическая оценка убирает очевидное. Потом тестирование с пользователями выявляет неочевидное.

В UsabilityLab эвристическая оценка — один из базовых инструментов UX-аудита. Когда клиент приходит с запросом «найдите проблемы в нашем интерфейсе», первый шаг — экспертная оценка по эвристикам Нильсена. Это даёт быстрый результат: список конкретных проблем с привязкой к экранам и элементам. А затем — тестирование с реальными пользователями, которое добавляет глубину. Два метода, родившиеся в голове одного датчанина тридцать пять лет назад, работают в связке до сих пор.

Связанные статьи

Эвристики Нильсена — полный разбор десяти эвристик юзабилити в их современной формулировке, с примерами нарушений и рекомендациями по применению.
Что такое юзабилити — определение, стандарт ISO 9241-11 и три измеримых компонента: результативность, эффективность, удовлетворённость.
Рождение юзабилити (1977–1985) — как Чапанис в 1981 году впервые предположил, что для теста достаточно 5–6 пользователей, и как это наблюдение привело к правилу пяти.
Метод «мыслей вслух» (1980–1982) — эмпирический метод, который дополняет экспертную эвристическую оценку: «мысли вслух» показывают, что думает реальный пользователь, а не что предполагает эксперт.
SIGCHI и HCI-сообщество (1982) — конференция CHI, на которой были представлены работы Нильсена и Молича.
Размер выборки: сколько пользователей нужно для теста (1990–1994) — математическое обоснование правила пяти пользователей в работах Вирзи и Льюиса.

Что произошло

Контекст эпохи

Значение для UX

Связанные статьи

Вопросы и ответы

Нужна помощь с UX?