Метод «мыслей вслух» и размер выборки (1980–1982)

Q: Что такое метод «мыслей вслух» и кто его придумал?

Метод «мыслей вслух» (thinking aloud protocol) — это техника исследования, при которой участник выполняет задачу и одновременно озвучивает все свои мысли: что видит, что ожидает, что пытается сделать, что его смущает. Теоретическое обоснование метода дали Герберт Саймон и Андерс Эриксон в 1980 году в статье «Verbal Reports as Data». Они доказали, что вербализация мыслительного процесса — это не артефакт, а валидные научные данные. Метод стал основным инструментом юзабилити-тестирования.

Q: Как IBM применила метод «мыслей вслух» к компьютерным интерфейсам?

В 1982 году Клейтон Льюис из исследовательского центра IBM опубликовал отчёт «Cognitive Interface Design», где описал применение thinking aloud к оценке компьютерных интерфейсов. Льюис просил пользователей озвучивать мысли, пока те работали с программами, и записывал моменты непонимания, ошибки, паузы. Это был один из первых документированных случаев, когда метод Саймона-Эриксона перешёл из когнитивной психологии в проектирование интерфейсов.

Q: Кто первым рассчитал необходимый размер выборки для юзабилити-тестирования?

Джеймс Льюис из IBM в 1982 году опубликовал первую статью о математическом моделировании размера выборки для выявления проблем юзабилити. Он применил биномиальное распределение: зная вероятность обнаружения проблемы одним пользователем, можно рассчитать, сколько пользователей нужно, чтобы обнаружить её с заданной вероятностью (например, 85% или 95%). Эта формула стала основой для обоснования бюджетов юзабилити-исследований.

Что произошло

В 1980 году два когнитивных психолога — Герберт Саймон и Андерс Эриксон — опубликовали статью, которая изменит методологию юзабилити-исследований на десятилетия вперёд. Статья называлась «Verbal Reports as Data» — «Вербальные отчёты как данные».

Герберт Саймон к тому моменту был живой легендой. Нобелевский лауреат по экономике (1978), один из основателей искусственного интеллекта, автор теории ограниченной рациональности — идеи, что люди принимают решения не оптимально, а «достаточно хорошо», исходя из имеющейся информации и когнитивных ограничений. Эриксон, его коллега по Университету Карнеги-Меллона, впоследствии прославится исследованиями экспертизы и «правилом 10 000 часов».

Их статья решала фундаментальную методологическую проблему. Психологи давно просили испытуемых «думать вслух» — проговаривать свои мысли во время выполнения задачи. Но в научном сообществе существовало стойкое предубеждение: вербальные отчёты — это не данные. Человек не может достоверно описать свои мыслительные процессы. Он рационализирует, додумывает, искажает. Бихевиористская традиция, доминировавшая в американской психологии полвека, учила: наблюдай поведение, не доверяй словам.

Саймон и Эриксон возразили. Они показали, что при определённых условиях вербальные отчёты являются валидными данными. Ключевое условие: человек должен описывать свои мысли в момент выполнения задачи, а не после. Не ретроспективный рассказ («что вы думали, когда…»), а синхронная вербализация («я вижу… я думаю… я пытаюсь…»). Синхронный протокол отражает содержание рабочей памяти — то, на что человек обращает внимание прямо сейчас.

Это было научное узаконивание метода, который практики использовали интуитивно. Саймон и Эриксон не изобрели thinking aloud — они дали ему теоретический фундамент.

Через два года, в 1982-м, метод совершил прыжок из лаборатории когнитивной психологии в мир компьютерных интерфейсов.

Клейтон Льюис (Clayton Lewis), исследователь из центра IBM в Йорктаун-Хайтс, опубликовал внутренний отчёт «Cognitive Interface Design». В нём Льюис описал, как он применил протокол «мыслей вслух» по Саймону к задаче оценки компьютерных интерфейсов. Методика была обезоруживающе проста: пользователю давалась задача (например, отредактировать документ в текстовом редакторе), его просили проговаривать всё, что приходит в голову, а исследователь записывал моменты замешательства, ошибочные ожидания, тупики.

Результаты оказались поразительно информативными. Там, где традиционный анализ задачи (task analysis) предсказывал гладкое выполнение, «мысли вслух» обнажали разрыв между ментальной моделью пользователя и логикой интерфейса. Пользователь ожидал, что команда «Сохранить» сохранит файл туда, откуда он был открыт, — а система спрашивала имя файла. Пользователь искал кнопку «Отмена» — а её не было. Пользователь не понимал разницу между «Закрыть» и «Выйти».

Каждое такое наблюдение — это проблема юзабилити, которую не выявить никаким формальным анализом. Её можно обнаружить только одним способом: посадить живого человека перед экраном и попросить его думать вслух.

В том же 1980 году произошло ещё одно примечательное событие: метод айтрекинга начал применяться в маркетинговых исследованиях. Технология отслеживания движений глаз существовала с начала XX века — ещё Ярбус в 1965 году опубликовал фундаментальные исследования движений глаз при разглядывании изображений. Но к 1980 году айтрекинг впервые вышел за пределы академических лабораторий и начал использоваться коммерчески: куда смотрит покупатель, разглядывая рекламу? На заголовок? На изображение? На цену? Куда падает первый взгляд?

Айтрекинг и «мысли вслух» — два комплементарных метода. «Мысли вслух» фиксируют, что думает пользователь. Айтрекинг — куда он смотрит. Вместе они дают картину, недоступную каждому методу по отдельности: пользователь смотрит на кнопку, но не нажимает — почему? «Мысли вслух» дадут ответ: «Я вижу эту кнопку, но не уверен, что она делает то, что мне нужно».

Наконец, в 1982 году Джеймс Льюис (James Lewis) — однофамилец Клейтона, тоже исследователь IBM — опубликовал первую статью о математическом моделировании размера выборки для юзабилити-тестирования. Льюис применил биномиальное распределение: если вероятность обнаружения конкретной проблемы одним пользователем равна p, то вероятность обнаружить её при тестировании с n пользователями равна 1 − (1 − p)^n.

Формула элегантна и практична. Если проблема достаточно серьёзна — затрагивает, скажем, 30% пользователей, — то пять участников обнаружат её с вероятностью более 83%. Десять — с вероятностью 97%. Если проблема затрагивает 50% пользователей, достаточно трёх-четырёх участников.

Это был первый математически строгий ответ на вопрос, который мучил каждого менеджера: сколько пользователей нужно для теста? Не «сколько бы хотелось» и не «сколько есть в бюджете», а сколько нужно для достижения заданного уровня уверенности. Интуитивное наблюдение Чапаниса (5–6 пользователей) получило формульное обоснование.

Контекст эпохи

Начало 1980-х — время, когда компьютер стремительно перемещался из вычислительного центра на рабочий стол. IBM PC вышел в 1981 году. VisiCalc, WordStar, будущий Lotus 1-2-3 — каждая из этих программ сталкивалась с одной проблемой: пользователи не могли их освоить. Не потому что были глупы, а потому что интерфейсы проектировались программистами для программистов. Команды вроде Ctrl+K-D (сохранить в WordStar) были логичны для разработчика и непостижимы для бухгалтера.

Компаниям нужен был метод, который позволял бы быстро и дёшево обнаруживать такие проблемы до выхода продукта. Thinking aloud оказался идеальным ответом: минимум оборудования (стол, стул, блокнот), минимум подготовки, максимум информации. Один пользователь, думающий вслух в течение часа, обнаруживает больше проблем, чем десять экспертов за тем же столом.

В академическом мире происходил параллельный сдвиг. Когнитивная революция, начавшаяся в 1950-х, к 1980-м полностью победила бихевиоризм. Психологи больше не боялись говорить о мыслительных процессах, ментальных моделях, внутренних представлениях. Статья Саймона и Эриксона стала научным манифестом этой победы: мысли — это данные, и мы умеем их собирать.

Значение для UX

Три события 1980–1982 годов — статья Саймона-Эриксона, отчёт Клейтона Льюиса и формула Джеймса Льюиса — создали методологический фундамент, на котором стоит юзабилити-тестирование до сих пор.

Thinking aloud — метод номер один. Якоб Нильсен назовёт thinking aloud «самым ценным методом юзабилити-инженерии» и «ближайшим к универсальному инструменту в арсенале юзабилити». Метод пережил все технологические революции: от текстовых интерфейсов DOS к графическим интерфейсам Windows, от десктопов к мобильным приложениям, от приложений к голосовым интерфейсам. Каждый раз менялся объект тестирования — но метод оставался тем же: попросить человека думать вслух. Он работает потому, что обнажает разрыв между намерением и реализацией — между тем, что пользователь хочет сделать, и тем, что интерфейс позволяет ему сделать.

Связь с эвристиками Нильсена прямая. Нильсен сформулировал свои десять эвристик на основе анализа сотен юзабилити-проблем, обнаруженных в том числе методом thinking aloud. «Видимость статуса системы», «соответствие между системой и реальным миром», «помощь в распознавании ошибок» — каждая из этих эвристик описывает типичный класс разрывов, которые проговаривают пользователи.

Айтрекинг — от рекламы к интерфейсам. То, что в 1980 году начиналось как маркетинговый инструмент (куда смотрит покупатель?), к 2000-м стало стандартным инструментом UX-исследований. Тепловые карты взглядов, области интереса, последовательность фиксаций — всё это потомки маркетингового айтрекинга 1980 года. F-паттерн чтения веб-страниц, открытый Нильсеном в 2006 году, был бы невозможен без технологии, перешедшей из рекламных лабораторий в UX-лаборатории.

Формула Льюиса — обоснование бюджета. Биномиальная модель 1982 года решила практическую проблему: как убедить руководство выделить деньги на тестирование. «Нам нужно протестировать с пятью пользователями, и мы обнаружим 85% серьёзных проблем» — это аргумент, понятный любому менеджеру. Формула превратила юзабилити-тестирование из «хорошо бы» в «вот расчёт».

Период 1980–1982 годов — это момент, когда юзабилити обрело свои инструменты. Слово уже существовало (Беннетт, 1979). Идея формативного тестирования — тоже (Чапанис, 1981). Не хватало методологии: как именно тестировать, что наблюдать, сколько людей привлекать. Саймон, Эриксон, оба Льюиса и маркетинговые айтрекеры дали ответы на эти вопросы. Ответы, которые работают до сих пор.

Связанные статьи

Эвристики Нильсена — десять принципов, выведенных из анализа проблем, обнаруженных в том числе методом thinking aloud.
Дневниковые исследования (1913) — ещё один метод самоотчёта, основанный на том же принципе: пользователь описывает свой опыт.
Чапанис и кодирование кабины B-17 (1943) — Чапанис как пионер формативного подхода: тестировать, чтобы исправить.
Движения глаз — Ярбус (1965) — научный фундамент айтрекинга задолго до его коммерческого применения.
IBM System/360 и PDP-8 (1964) — платформа, на которой тестировал Клейтон Льюис.

Что произошло

Контекст эпохи

Значение для UX

Связанные статьи

Вопросы и ответы

Нужна помощь с UX?