Что произошло
Десять лет — срок, за который технологии успевают родиться, повзрослеть и устареть. В 1986 году Джон Брук создал SUS — System Usability Scale в лаборатории Digital Equipment Corporation. Десять вопросов, одно число на выходе, пять минут на заполнение. Анкета работала — и работала хорошо. Но Брук не торопился публиковать.
SUS циркулировал как «серая литература»: внутренние отчёты DEC, копии, переданные коллегам, упоминания в рабочих документах. Его использовали в British Telecom, Hewlett-Packard, других компаниях — но сослаться на него в научной статье было невозможно: формальной публикации не существовало.
В 1996 году Брук наконец исправил этот пробел. Патрик Джордан, Брюс Томас и Бернард Вердермейстер редактировали сборник «Usability Evaluation in Industry» — книгу о практических методах оценки юзабилити. Они пригласили Брука написать главу. Брук озаглавил её «SUS: A ‘quick and dirty’ usability scale» — «SUS: быстрая и грубая шкала юзабилити». Название было самоироничным: Брук не претендовал на академическую строгость. Он описывал рабочий инструмент, проверенный десятилетием практики.
Глава содержала всё необходимое: формулировки 10 вопросов, формулу подсчёта, обоснование выбора шкалы Лайкерта, объяснение чередования позитивных и негативных утверждений. Двадцать страниц — и SUS получил формальный статус.
Эффект публикации оказался лавинообразным. Исследователи, которые годами использовали SUS «на словах», получили библиографическую ссылку. Начались массовые цитирования. К 2009 году — более 600 ссылок в научных публикациях. К 2020-му — тысячи. Глава Брука стала одной из самых цитируемых работ в истории HCI. Парадокс: текст, который автор считал «quick and dirty», оказался одним из самых долгоживущих в дисциплине.
После публикации SUS начал обрастать нормами. В 2008 году Джефф Сауро проанализировал результаты более 500 исследований и установил медиану: 68 баллов. Ниже 50 — неприемлемо, 68 — среднее по индустрии, выше 80 — хорошо, выше 90 — исключительно. Число 68 стало ориентиром: продуктовые команды по всему миру сравнивали свои результаты с этим бенчмарком.
Но параллельно накапливались и проблемы.
Проблема первая: чередование тональности. Нечётные вопросы SUS — позитивные («Я считаю, что систему легко использовать»), чётные — негативные («Я нашёл систему неоправданно сложной»). Брук ввёл чередование намеренно — чтобы респонденты не ставили оценки на автопилоте. Но исследования показали, что респонденты систематически путаются в негативных формулировках. Особенно — пользователи, для которых английский не родной. Они соглашаются с негативным утверждением, имея в виду позитивное, и наоборот. Ошибки чередования — не шум, а систематическое искажение.
Проблема вторая: длина. Десять вопросов — это немного для академического исследования, но много для быстрого замера в продуктовой команде. Когда нужно измерять удовлетворённость после каждого спринта, каждого релиза, каждого A/B-теста — десять вопросов становятся барьером. Респонденты устают. Процент заполнения падает. Данных становится меньше.
Проблема третья: привязка к ISO. SUS создавался в 1986 году, за двенадцать лет до стандарта ISO 9241-11. Его вопросы не были привязаны к триаде «результативность — эффективность — удовлетворённость». SUS измерял нечто общее — «воспринимаемое юзабилити», — но без чёткой связи с компонентами стандарта.
В 2010 году на эти три проблемы ответил Крейг Финстад (Kraig Finstad), исследователь из Intel. Он предложил UMUX — Usability Metric for User Experience: опросник из четырёх пунктов.
Четыре утверждения UMUX были построены по модели ISO 9241-11:
- Возможности системы отвечают моим требованиям. (Результативность.)
- Пользоваться системой — неприятный опыт. (Удовлетворённость, негативная формулировка.)
- Система проста в использовании. (Эффективность.)
- Мне приходится тратить слишком много времени на исправление ошибок. (Эффективность, негативная формулировка.)
Респондент оценивал каждое утверждение по 7-балльной шкале Лайкерта. Формула подсчёта приводила результат к диапазону 0–100, сопоставимому с SUS.
Финстад показал, что UMUX коррелирует с SUS на уровне r = 0.83 — высокая корреляция, означающая, что оба инструмента измеряют, по сути, одно и то же. Но UMUX делает это в 2,5 раза быстрее.
Контекст эпохи
Между публикацией SUS (1996) и появлением UMUX (2010) индустрия юзабилити прошла через трансформацию. В 1996 году типичный юзабилити-тест проводился в лаборатории: стеклянная перегородка, видеокамера, пять участников, две недели на анализ. К 2010-му тестирование стало непрерывным: удалённые немодерируемые тесты, A/B-эксперименты на миллионах пользователей, опросы после каждого релиза.
Изменился масштаб. Если в 1996 году исследователь проводил 10–20 тестов в год, то к 2010-му продуктовые команды Google, Amazon, Microsoft запускали десятки исследований в месяц. При таком темпе каждый лишний вопрос в анкете — это потерянные респонденты. Каждая потерянная минута — это данные, которые не были собраны.
В этом контексте «четыре вопроса вместо десяти» — не упрощение, а адаптация инструмента к новой реальности. UMUX был рождён эпохой, в которой скорость измерения стала важнее глубины.
Значение для UX
История от SUS к UMUX — это история сжатия: от 10 вопросов к 4, а затем к 2.
После UMUX Джим Льюис — тот самый Льюис, создатель PSSUQ в IBM и один из крупнейших специалистов по UX-метрикам — предложил ещё более радикальное сокращение. UMUX-LITE содержал всего два пункта: оба позитивные, без чередования тональности, без негативных формулировок, которые путали респондентов.
Два утверждения UMUX-LITE:
- Возможности системы отвечают моим требованиям. (Capabilities — результативность.)
- Система проста в использовании. (Ease of use — эффективность.)
Два вопроса. Тридцать секунд на заполнение. Корреляция с SUS — выше 0.80. Льюис показал, что два позитивных утверждения дают статистически достоверную оценку юзабилити, сопоставимую с десятью вопросами SUS.
Это был не компромисс, а парадокс: чем короче опросник, тем больше данных он собирает. Респонденты охотнее отвечают на два вопроса, чем на десять. Процент заполнения растёт. Выборка увеличивается. Большая выборка компенсирует меньшую точность отдельного замера. В итоге два вопроса на тысяче респондентов дают более надёжный результат, чем десять вопросов на пятидесяти.
Эволюция SUS — UMUX — UMUX-LITE отражает общий тренд UX-метрик: от точности замера к частоте замера. В 1986 году Брук создавал инструмент для лабораторного теста, который проводится раз в квартал. В 2010-м Финстад — для непрерывного мониторинга, который встроен в каждый релиз. Два вопроса можно задать после каждого сеанса, после каждой покупки, после каждого звонка в поддержку. Десять — нельзя.
Но SUS не исчез. Он по-прежнему остаётся самым цитируемым опросником юзабилити в мире. UMUX и UMUX-LITE не заменили SUS — они дополнили его. Сегодня исследователь выбирает инструмент по задаче: SUS — для формального тестирования с отчётом, UMUX-LITE — для непрерывного мониторинга. Термометр и фитнес-браслет: оба измеряют температуру, но в разных ситуациях.
Джон Брук, создавший SUS как «quick and dirty» инструмент, вряд ли предполагал, что через 24 года кто-то назовёт его десять вопросов слишком длинными. Но именно это и произошло. И это, пожалуй, лучший комплимент инструменту: он жил достаточно долго, чтобы его стали улучшать.
Связанные статьи
- Что такое юзабилити — UMUX явно привязан к определению ISO 9241-11: результативность, эффективность, удовлетворённость. SUS измерял юзабилити до стандарта, UMUX — в рамках стандарта.
- ISO 9241-11 (1998) — стандарт, определивший триаду компонентов юзабилити, на которую опирается UMUX.
- Эффект эстетического юзабилити — субъективная оценка системы (компонент «удовлетворённость») связана с воспринимаемой эстетикой интерфейса.
Из серии «История UX»:
- SUS: шкала юзабилити (1986) — история создания SUS в DEC. Настоящая статья начинается там, где заканчивается та: с публикации 1996 года и дальнейшей эволюции.
- PSSUQ и SUMI (1992–1993) — параллельная линия развития: детальные опросники с подшкалами. UMUX пошёл в противоположную сторону — к минимализму.
- QUIS: опросник Шнейдермана (1987) — ещё один пример того, как глубина проиграла простоте: 27 пунктов QUIS не стали массовыми, 10 SUS — стали, 2 UMUX-LITE — побеждают.
- ROI юзабилити (1994) — экономическое обоснование UX-метрик. Чем быстрее и дешевле измерение, тем выше ROI инвестиций в юзабилити-исследования.