От SUS к UMUX: эволюция шкал юзабилити (1996–2010)

Q: Почему SUS был опубликован только через 10 лет после создания?

Джон Брук создал SUS в 1986 году в Digital Equipment Corporation для внутренних нужд — оценки офисных систем DEC. Анкета циркулировала внутри компании и передавалась между командами, но формальной научной публикации не было. В 1996 году Брук опубликовал SUS в главе книги «Usability Evaluation in Industry» под редакцией Патрика Джордана. К этому моменту SUS уже использовался десятками организаций по всему миру — публикация лишь зафиксировала де-факто стандарт.

Q: Что такое UMUX и чем он отличается от SUS?

UMUX (Usability Metric for User Experience) — опросник из 4 пунктов, разработанный Крейгом Финстадом из Intel в 2010 году. В отличие от SUS (10 вопросов, общая оценка юзабилити), UMUX привязан к определению ISO 9241-11: каждый пункт соответствует одному из компонентов — результативности, эффективности и удовлетворённости. Четвёртый пункт измеряет общее впечатление. UMUX быстрее в заполнении и снижает «усталость от опросника» при многократных замерах.

Q: Что такое UMUX-LITE и можно ли доверять опроснику из двух вопросов?

UMUX-LITE — сокращённая версия UMUX, предложенная Джимом Льюисом, содержащая всего 2 позитивных утверждения: о возможностях системы (capabilities) и простоте использования (ease of use). Исследования показали высокую корреляцию UMUX-LITE с полным SUS (r > 0.80). Два вопроса дают менее точную оценку, чем десять, но компенсируют это массовостью: респонденты охотнее заполняют короткий опросник, что увеличивает выборку и, следовательно, статистическую мощность.

Что произошло

Десять лет — срок, за который технологии успевают родиться, повзрослеть и устареть. В 1986 году Джон Брук создал SUS — System Usability Scale в лаборатории Digital Equipment Corporation. Десять вопросов, одно число на выходе, пять минут на заполнение. Анкета работала — и работала хорошо. Но Брук не торопился публиковать.

SUS циркулировал как «серая литература»: внутренние отчёты DEC, копии, переданные коллегам, упоминания в рабочих документах. Его использовали в British Telecom, Hewlett-Packard, других компаниях — но сослаться на него в научной статье было невозможно: формальной публикации не существовало.

В 1996 году Брук наконец исправил этот пробел. Патрик Джордан, Брюс Томас и Бернард Вердермейстер редактировали сборник «Usability Evaluation in Industry» — книгу о практических методах оценки юзабилити. Они пригласили Брука написать главу. Брук озаглавил её «SUS: A ‘quick and dirty’ usability scale» — «SUS: быстрая и грубая шкала юзабилити». Название было самоироничным: Брук не претендовал на академическую строгость. Он описывал рабочий инструмент, проверенный десятилетием практики.

Глава содержала всё необходимое: формулировки 10 вопросов, формулу подсчёта, обоснование выбора шкалы Лайкерта, объяснение чередования позитивных и негативных утверждений. Двадцать страниц — и SUS получил формальный статус.

Эффект публикации оказался лавинообразным. Исследователи, которые годами использовали SUS «на словах», получили библиографическую ссылку. Начались массовые цитирования. К 2009 году — более 600 ссылок в научных публикациях. К 2020-му — тысячи. Глава Брука стала одной из самых цитируемых работ в истории HCI. Парадокс: текст, который автор считал «quick and dirty», оказался одним из самых долгоживущих в дисциплине.

После публикации SUS начал обрастать нормами. В 2008 году Джефф Сауро проанализировал результаты более 500 исследований и установил медиану: 68 баллов. Ниже 50 — неприемлемо, 68 — среднее по индустрии, выше 80 — хорошо, выше 90 — исключительно. Число 68 стало ориентиром: продуктовые команды по всему миру сравнивали свои результаты с этим бенчмарком.

Но параллельно накапливались и проблемы.

Проблема первая: чередование тональности. Нечётные вопросы SUS — позитивные («Я считаю, что систему легко использовать»), чётные — негативные («Я нашёл систему неоправданно сложной»). Брук ввёл чередование намеренно — чтобы респонденты не ставили оценки на автопилоте. Но исследования показали, что респонденты систематически путаются в негативных формулировках. Особенно — пользователи, для которых английский не родной. Они соглашаются с негативным утверждением, имея в виду позитивное, и наоборот. Ошибки чередования — не шум, а систематическое искажение.

Проблема вторая: длина. Десять вопросов — это немного для академического исследования, но много для быстрого замера в продуктовой команде. Когда нужно измерять удовлетворённость после каждого спринта, каждого релиза, каждого A/B-теста — десять вопросов становятся барьером. Респонденты устают. Процент заполнения падает. Данных становится меньше.

Проблема третья: привязка к ISO. SUS создавался в 1986 году, за двенадцать лет до стандарта ISO 9241-11. Его вопросы не были привязаны к триаде «результативность — эффективность — удовлетворённость». SUS измерял нечто общее — «воспринимаемое юзабилити», — но без чёткой связи с компонентами стандарта.

В 2010 году на эти три проблемы ответил Крейг Финстад (Kraig Finstad), исследователь из Intel. Он предложил UMUX — Usability Metric for User Experience: опросник из четырёх пунктов.

Четыре утверждения UMUX были построены по модели ISO 9241-11:

Возможности системы отвечают моим требованиям. (Результативность.)
Пользоваться системой — неприятный опыт. (Удовлетворённость, негативная формулировка.)
Система проста в использовании. (Эффективность.)
Мне приходится тратить слишком много времени на исправление ошибок. (Эффективность, негативная формулировка.)

Респондент оценивал каждое утверждение по 7-балльной шкале Лайкерта. Формула подсчёта приводила результат к диапазону 0–100, сопоставимому с SUS.

Финстад показал, что UMUX коррелирует с SUS на уровне r = 0.83 — высокая корреляция, означающая, что оба инструмента измеряют, по сути, одно и то же. Но UMUX делает это в 2,5 раза быстрее.

Контекст эпохи

Между публикацией SUS (1996) и появлением UMUX (2010) индустрия юзабилити прошла через трансформацию. В 1996 году типичный юзабилити-тест проводился в лаборатории: стеклянная перегородка, видеокамера, пять участников, две недели на анализ. К 2010-му тестирование стало непрерывным: удалённые немодерируемые тесты, A/B-эксперименты на миллионах пользователей, опросы после каждого релиза.

Изменился масштаб. Если в 1996 году исследователь проводил 10–20 тестов в год, то к 2010-му продуктовые команды Google, Amazon, Microsoft запускали десятки исследований в месяц. При таком темпе каждый лишний вопрос в анкете — это потерянные респонденты. Каждая потерянная минута — это данные, которые не были собраны.

В этом контексте «четыре вопроса вместо десяти» — не упрощение, а адаптация инструмента к новой реальности. UMUX был рождён эпохой, в которой скорость измерения стала важнее глубины.

Значение для UX

История от SUS к UMUX — это история сжатия: от 10 вопросов к 4, а затем к 2.

После UMUX Джим Льюис — тот самый Льюис, создатель PSSUQ в IBM и один из крупнейших специалистов по UX-метрикам — предложил ещё более радикальное сокращение. UMUX-LITE содержал всего два пункта: оба позитивные, без чередования тональности, без негативных формулировок, которые путали респондентов.

Два утверждения UMUX-LITE:

Возможности системы отвечают моим требованиям. (Capabilities — результативность.)
Система проста в использовании. (Ease of use — эффективность.)

Два вопроса. Тридцать секунд на заполнение. Корреляция с SUS — выше 0.80. Льюис показал, что два позитивных утверждения дают статистически достоверную оценку юзабилити, сопоставимую с десятью вопросами SUS.

Это был не компромисс, а парадокс: чем короче опросник, тем больше данных он собирает. Респонденты охотнее отвечают на два вопроса, чем на десять. Процент заполнения растёт. Выборка увеличивается. Большая выборка компенсирует меньшую точность отдельного замера. В итоге два вопроса на тысяче респондентов дают более надёжный результат, чем десять вопросов на пятидесяти.

Эволюция SUS — UMUX — UMUX-LITE отражает общий тренд UX-метрик: от точности замера к частоте замера. В 1986 году Брук создавал инструмент для лабораторного теста, который проводится раз в квартал. В 2010-м Финстад — для непрерывного мониторинга, который встроен в каждый релиз. Два вопроса можно задать после каждого сеанса, после каждой покупки, после каждого звонка в поддержку. Десять — нельзя.

Но SUS не исчез. Он по-прежнему остаётся самым цитируемым опросником юзабилити в мире. UMUX и UMUX-LITE не заменили SUS — они дополнили его. Сегодня исследователь выбирает инструмент по задаче: SUS — для формального тестирования с отчётом, UMUX-LITE — для непрерывного мониторинга. Термометр и фитнес-браслет: оба измеряют температуру, но в разных ситуациях.

Джон Брук, создавший SUS как «quick and dirty» инструмент, вряд ли предполагал, что через 24 года кто-то назовёт его десять вопросов слишком длинными. Но именно это и произошло. И это, пожалуй, лучший комплимент инструменту: он жил достаточно долго, чтобы его стали улучшать.

Связанные статьи

Что такое юзабилити — UMUX явно привязан к определению ISO 9241-11: результативность, эффективность, удовлетворённость. SUS измерял юзабилити до стандарта, UMUX — в рамках стандарта.
ISO 9241-11 (1998) — стандарт, определивший триаду компонентов юзабилити, на которую опирается UMUX.
Эффект эстетического юзабилити — субъективная оценка системы (компонент «удовлетворённость») связана с воспринимаемой эстетикой интерфейса.

Из серии «История UX»:

SUS: шкала юзабилити (1986) — история создания SUS в DEC. Настоящая статья начинается там, где заканчивается та: с публикации 1996 года и дальнейшей эволюции.
PSSUQ и SUMI (1992–1993) — параллельная линия развития: детальные опросники с подшкалами. UMUX пошёл в противоположную сторону — к минимализму.
QUIS: опросник Шнейдермана (1987) — ещё один пример того, как глубина проиграла простоте: 27 пунктов QUIS не стали массовыми, 10 SUS — стали, 2 UMUX-LITE — побеждают.
ROI юзабилити (1994) — экономическое обоснование UX-метрик. Чем быстрее и дешевле измерение, тем выше ROI инвестиций в юзабилити-исследования.

Что произошло

Контекст эпохи

Значение для UX

Связанные статьи

Вопросы и ответы

Нужна помощь с UX?