Шкалы юзабилити: PSSUQ и SUMI (1992–1993)

Что произошло

В 1986 году Джон Брук из Digital Equipment Corporation создал SUS — System Usability Scale: десять вопросов, одно число на выходе, быстро и бесплатно. SUS стал первым стандартизированным инструментом для измерения воспринимаемого юзабилити. Но SUS давал лишь общую оценку — одно число от 0 до 100. Хорошо для быстрого замера, недостаточно для диагностики. Если SUS показал 55 баллов — что именно плохо? Навигация? Терминология? Обратная связь? SUS не отвечал.

В 1992 году Джим Льюис (Jim Lewis), исследователь из IBM, опубликовал инструмент, решавший эту проблему: PSSUQ — Post-Study System Usability Questionnaire. Шестнадцать вопросов, каждый с 7-балльной шкалой Ликерта (от «категорически согласен» до «категорически не согласен»). Но главное — три подшкалы:

System Usefulness (полезность системы) — шесть вопросов. Насколько система помогает выполнять задачи? Легко ли с ней работать? Можно ли быстро завершить работу? Эта подшкала измеряла то, что стандарт ISO 9241-11 называет эффективностью и продуктивностью.

Information Quality (качество информации) — шесть вопросов. Понятны ли сообщения об ошибках? Помогает ли документация? Легко ли найти нужную информацию? Подшкала, которой не было в SUS, — а ведь именно невнятные сообщения об ошибках и бесполезная справка были (и остаются) одними из главных источников фрустрации.

Interface Quality (качество интерфейса) — три вопроса. Нравится ли интерфейс? Обладает ли он всеми необходимыми функциями? Комфортно ли работать? Субъективная оценка впечатления от визуального и интерактивного дизайна.

Льюис разработал PSSUQ для внутренних нужд IBM. Компания проводила сотни юзабилити-тестов ежегодно — для мейнфреймов, рабочих станций, операционных систем, приложений. Нужен был единый инструмент, позволяющий сравнивать результаты между продуктами и между версиями одного продукта. Но Льюис пошёл дальше внутренних задач: он опубликовал PSSUQ в открытом доступе, с полным описанием психометрических свойств — надёжности, валидности, факторной структуры. PSSUQ стал бесплатным инструментом для всей индустрии.

Джим Льюис — фигура, заслуживающая отдельного упоминания. Он проработал в IBM более тридцати лет и стал одним из главных мировых специалистов по метрикам юзабилити. Помимо PSSUQ, Льюис разработал CSUQ (Computer System Usability Questionnaire — адаптацию PSSUQ для полевых исследований), соавтор SUPR-Q (Standardized User Experience Percentile Rank Questionnaire) и десятков статей о статистических методах в UX-исследованиях. Если SUS создал Джон Брук, то Джим Льюис построил целое здание количественного юзабилити.

Годом позже, в 1993 году, из Ирландии пришёл другой инструмент — SUMI: Software Usability Measurement Inventory. Его автор — Юрек Кираковски (Jurek Kirakowski), исследователь из Университетского колледжа Корка (University College Cork), один из пионеров европейского подхода к юзабилити-метрикам.

SUMI был масштабнее и амбициознее PSSUQ: 50 вопросов, пять подшкал:

  • Efficiency (эффективность) — помогает ли программа работать быстро и продуктивно?
  • Affect (эмоциональная оценка) — приятно ли пользоваться программой, вызывает ли она положительные эмоции?
  • Helpfulness (полезность) — помогает ли программа решить проблемы, предоставляет ли адекватную помощь?
  • Control (контроль) — чувствует ли пользователь, что он управляет программой, а не программа управляет им?
  • Learnability (обучаемость) — легко ли освоить программу, запомнить команды и процедуры?

Пять подшкал SUMI давали не просто оценку, а профиль юзабилити — пентаграмму сильных и слабых сторон продукта. Продукт мог быть эффективным, но трудным в освоении. Мог давать ощущение контроля, но вызывать негативные эмоции. SUMI позволял видеть эти нюансы.

Но главное отличие SUMI от SUS и PSSUQ — коммерческая модель. Кираковски создал не просто опросник, а продукт: SUMI продавался с лицензией, включал нормативную базу данных (benchmark), программу обработки результатов и консультационную поддержку. Нормативная база — это собранные результаты сотен оценок различного ПО, позволяющие сказать: «Ваш продукт набрал 55 баллов по Efficiency — это ниже медианы рынка». Такое сравнение было невозможно с SUS или PSSUQ, которые давали «сырое» число без контекста.

Контекст эпохи

Начало 1990-х — время, когда юзабилити перестало быть факультативным и стало конкурентным преимуществом. Windows 3.1 (1992) продалась миллионами копий. Lotus Notes, WordPerfect, Microsoft Office боролись за рабочие столы. Каждый крупный производитель ПО имел юзабилити-лабораторию. Но что именно лаборатория измеряла?

До PSSUQ и SUMI типичный юзабилити-тест заканчивался качественными данными: наблюдения, цитаты пользователей, список проблем, отсортированных по степени серьёзности. Этого было достаточно для формативного тестирования — найти проблемы и исправить. Но недостаточно для суммативного: сравнить версию 2.0 с версией 1.0, сравнить свой продукт с конкурентом, доказать менеджменту, что редизайн улучшил ситуацию.

Менеджеры хотели числа. Не «пользователям было трудно» — а насколько трудно? Не «стало лучше» — а на сколько лучше? Не «наш продукт удобнее конкурента» — а есть ли статистически значимая разница? PSSUQ и SUMI давали числа, которые можно было сравнивать, усреднять, тестировать на значимость. Они превратили субъективное восприятие в объективную метрику.

Контекст был шире юзабилити. В начале 1990-х набирало силу движение Total Quality Management (TQM) — всеобщего управления качеством. Компании внедряли ISO 9000, измеряли качество процессов, стремились к «шести сигмам». В этой культуре измерений опросник юзабилити был естественным инструментом: качество программного обеспечения с точки зрения пользователя — такая же измеримая величина, как качество автомобиля с точки зрения покупателя.

Значение для UX

PSSUQ и SUMI, вместе с SUS (1986), сформировали «три кита» количественного юзабилити 1990-х. Каждый инструмент занял свою нишу.

SUS — быстрый, бесплатный, минималистичный. Десять вопросов, одно число. Идеален для быстрой оценки, когда нет времени на длинные опросники. Стал самым цитируемым инструментом в истории юзабилити.

PSSUQ — детальный и бесплатный. Шестнадцать вопросов, три подшкалы. Когда нужно не только узнать «хорошо или плохо», но и понять что именно хорошо или плохо. Стандарт в академических исследованиях и в крупных юзабилити-лабораториях.

SUMI — профессиональный и коммерческий. Пятьдесят вопросов, пять подшкал, нормативная база. Когда нужен детальный профиль и сравнение с рынком. Инструмент для компаний, готовых инвестировать в качество измерений.

Эти три инструмента решили фундаментальную проблему дисциплины: как говорить о юзабилити на языке бизнеса. До стандартизированных опросников юзабилити-специалист приходил к менеджеру с качественными наблюдениями: «Пользователи путаются в навигации». Менеджер кивал и спрашивал: «А насколько это серьёзно? А у конкурентов лучше? А после редизайна стало лучше?» На эти вопросы наблюдения не отвечали. PSSUQ и SUMI — отвечали.

Наследие Джима Льюиса выходит за рамки одного опросника. Льюис создал культуру количественного подхода к юзабилити. Его работы по статистическим методам — размер выборки, доверительные интервалы, сравнение средних — стали стандартом для UX-исследователей. Сегодня, когда UX-команда проводит A/B-тест и сравнивает удовлетворённость пользователей двух вариантов интерфейса, она использует методы, формализованные Льюисом.

Наследие Кираковски — в идее, что юзабилити многомерно. Не одно число, а профиль. Не «удобно/неудобно», а «эффективно, но эмоционально некомфортно» или «легко осваивается, но не даёт ощущения контроля». Эта идея многомерности сегодня воплощена в десятках метрик: Net Promoter Score, Customer Effort Score, User Engagement Score. Каждая измеряет свой аспект опыта — потому что один аспект не описывает целое.

SUS, PSSUQ, SUMI — три инструмента, появившиеся за семь лет (1986–1993), — превратили юзабилити из субъективного суждения в измеримую величину. Они позволили отслеживать прогресс, сравнивать продукты, обосновывать инвестиции в UX. Без них UX-исследования остались бы набором качественных историй. С ними — стали дисциплиной, говорящей на языке цифр.

Связанные статьи

  • SUS (1986) — первый стандартизированный опросник юзабилити, «старший брат» PSSUQ и SUMI.
  • Рождение юзабилити (1977–1985) — как юзабилити стало измеримым свойством: от термина Беннетта к метрикам.
  • Что такое юзабилити — определение ISO 9241-11, три компонента (эффективность, продуктивность, удовлетворённость), которые PSSUQ и SUMI измеряют количественно.
  • Эвристики Нильсена — качественный инструмент оценки юзабилити (1990), дополняющий количественные шкалы PSSUQ и SUMI.
  • UXPA и профессиональное сообщество (1991) — профессиональная ассоциация, члены которой стали основными пользователями стандартизированных шкал.

Вопросы и ответы

Что такое PSSUQ и для чего он используется?

PSSUQ (Post-Study System Usability Questionnaire) — стандартизированный опросник из 16 вопросов, разработанный Джимом Льюисом в IBM в 1992 году. Участник заполняет его после завершения юзабилити-теста, оценивая систему по 7-балльной шкале Ликерта. PSSUQ измеряет три аспекта: полезность системы, качество информации и качество интерфейса. Опросник бесплатен и широко используется в индустрии и академических исследованиях.

Чем SUMI отличается от SUS и PSSUQ?

SUMI (Software Usability Measurement Inventory) — коммерческий опросник из 50 вопросов, разработанный Юреком Кираковски в Университетском колледже Корка в 1993 году. В отличие от SUS (10 вопросов, общая оценка) и PSSUQ (16 вопросов, три подшкалы), SUMI даёт детальный профиль по пяти измерениям: эффективность, влияние на эмоции, полезность, контроль и обучаемость. SUMI — коммерческий продукт с нормативной базой данных, что позволяет сравнивать результаты с отраслевыми бенчмарками.

Зачем нужны стандартизированные опросники юзабилити, если можно просто спросить пользователя?

Стандартизированные опросники решают три проблемы: надёжность (одни и те же вопросы дают воспроизводимые результаты), сравнимость (можно сопоставить продукт с конкурентами или с предыдущей версией) и объективность (исследователь не влияет на формулировку вопросов). Простой вопрос 'Вам удобно?' даёт субъективное мнение. PSSUQ или SUMI дают число, которое можно отслеживать, сравнивать и предъявлять руководству.