Перевод статьи, автор Джефф Сауро, PhD.
Считается, что невозможно работать со статистическими данными при небольшом размере выборки.
Это распространенное заблуждение.
Для работы с маленькими выборками есть соответствующие статистические методы.
То, что для одного исследователя является «маленькой» выборкой, для другого может быть большой. Поэтому, когда я говорю о небольших размерах выборки, я имею в виду исследования, в которых обычно участвуют от 5 до 30 пользователей — количество, очень распространенное в исследованиях юзабилити.
Но исследования пользователей — не единственная область, которая имеет дело с небольшими размерами выборки. Исследования с использованием фМРТ, проведение которых обходится дорого, также имеют ограниченные размеры выборки, как и исследования с использованием лабораторных животных.
И несмотря на то, что существуют определенные формулы, которые позволяют нам правильно обработать данные небольших исследований, есть ограничения, чтобы увидеть большие различия или величину эффекта.
Иными словами, статистический анализ с небольшими выборками можно сравнить с наблюдением за звездами с помощью бинокля. Вы сможете увидеть лишь большие объекты: планеты, звезды, луну и случайные кометы. Но то, что у вас нет доступа к мощному телескопу, не означает, что вы не можете заниматься астрономией. Галилей обнаружил спутники Юпитера с помощью телескопа, обладающего той же мощностью, что и многие современные бинокли.
То же самое можно сказать и о статистике: отсутствие большого размера выборки не означает, что вы не можете использовать статистику. Опять же, ключевым ограничением является то, что вы ограничены обнаружением больших различий между проектами или измерениями
К счастью, в исследованиях пользовательского опыта для нас часто важнее именно большие различия — различия, которые пользователи, вероятно, заметят, такие как изменения в структуре навигации или улучшение страницы результатов поиска.
Ниже приведены процедуры, которые мы протестировали для обычных исследований пользователей на небольших выборках.
Сравнение
Если вам нужно сравнить показатели выполнения, время выполнения задач и данные по шкале оценок для двух независимых групп, есть два способа, которые вы можете использовать для небольших и больших размеров выборки. Какой из них выбрать, зависит от типа имеющихся у вас данных: непрерывных или дискретно-двоичных.
Сравнение средних: Если ваши данные, как правило, непрерывные (не двоичные), такие как время выполнения задачи или шкалы оценок, используйте двухвыборочный t-тест. Он даёт точные результаты для небольших размеров выборки.
Сравнение двух пропорций: Если ваши данные двоичные (проходят / не проходят, да / нет), то используйте тест N-1 с двумя пропорциями. Это вариант более известного теста хи-квадрат (он алгебраически эквивалентен критерию хи-квадрат N-1). Если математические ожидания в таблице ниже 10, то лучше работает точный тест Фишера. Расчёт за вас сделает онлайн-калькулятор, а сам процесс мы описываем в главе 5 «Количественная оценка пользовательского опыта».
Доверительный интервал
Если вы хотите узнать, каков вероятный диапазон для генеральной совокупности пользователей на основе данных выборки, вам потребуется рассчитать доверительный интервал. Несмотря на то, что интервал может быть довольно большим (обычно от 20 до 30 процентов), по его верхней или нижней границе можно определить, как часто будет происходить то или иное действие в генеральной совокупности.
Например, вам нужно узнать, прочитают ли пользователи лист с надписью “Прочтите это в первую очередь” при установке принтера. Вы провели исследование, и при установке принтера шесть из восьми пользователей не прочитали надпись. То есть, вы понимаете, что по меньшей мере 40% всех пользователей, скорее всего, не выполнят необходимое действие — значительная доля.
Существуют три подхода к вычислению доверительных интервалов: для двоичных, временных и непрерывных данных.
Доверительный интервал для среднего: Если ваши данные, как правило, непрерывные (не двоичные), такие как шкалы оценок, суммы заказов в долларах или количество просмотров страниц, доверительный интервал основан на t-распределении (которое учитывает размер выборки).
Доверительный интервал времени выполнения задачи: данные о времени выполнения задачи определённо искажены. Нижняя граница – 0 секунд. Часто некоторым пользователям для выполнения одной и той же задачи требуется в 10-20 раз больше времени, чем другим. Как быть с этим перекосом? Данные о времени необходимо преобразовать в логарифм, вычислить доверительный интервал, а затем преобразовать обратно при составлении отчета. Со всем этим справляется онлайн-калькулятор.
Доверительный интервал вокруг двоичного показателя: для точного доверительного интервала вокруг двоичных показателей, таких как коэффициент заполнения или ответы «да / нет», хорошо работает скорректированный интервал Вальда, при этом не имеет значения размер выборки.
Точечная оценка (лучшее среднее значение)
«Лучшая» оценка для среднего времени или среднего показателя завершения любого исследования может отличаться в зависимости от целей исследования. Помните, что даже «лучшая» единичная оценка все равно будет отличаться от фактического среднего значения, поэтому лучший способ получить среднее значение — применить доверительные интервалы.
Давайте рассмотрим два способа, которые позволяют получить лучшее общее среднее времени или коэффициента завершения на небольших выборках. А также более общую рекомендацию для всех размеров выборки по рейтинговым шкалам.
Коэффициент завершения: Для показателей завершения существует только несколько возможных значений для каждой задачи. Например, когда пять пользователей пытаются выполнить задачу, единственно возможными результатами являются 0%, 20%, 40%, 60%, 80% и 100% успех. Нередки случаи 100% завершения с пятью пользователями. Но такой отчет об успешном успехе при таком размере выборки выглядит неубедительно. Слишком хорош, чтобы быть правдой.
Мы поэкспериментировали[pdf]1 с несколькими функциями оценки на малых выборках и пришли к выводу, что Правило наследования Лапласа и простая пропорция (известная как оценка максимального правдоподобия) в целом хорошо работают с данными юзабилити-тестов, которые мы проводили. Если вам нужна лучшая оценка, калькулятор сгенерирует ее.
Шкалы оценок: Шкалы оценок — довольно забавный тип показателей, поскольку большинство из них ограничены с обеих сторон (например, от 1 до 5, от 1 до 7 или от 1 до 10). Для малых и больших размеров выборки мы обнаружили, что среднее арифметическое значение может быть лучшей мерой центральной тенденции, чем медиана[pdf]. На самом деле существует много способов сообщить оценку по рейтинговым шкалам, включая 2-top-box2. Какой выбрать, зависит как от чувствительности, и от того, какой способ принят в организации.
Среднее время: Одно длительное выполнение задачи может исказить среднее арифметическое и ухудшить показатели среднего значения. В таких ситуациях медиана является лучшим показателем типичного или «среднего» времени. К сожалению, медиана имеет тенденцию быть менее точной и более смещённой, чем среднее значение, когда размеры выборки меньше примерно 25. В этих обстоятельствах среднее геометрическое (среднее из логарифмических значений, преобразованных обратно), как правило, является лучшим показателем среднего значения. Когда размеры выборки превышают 25, медиана работает нормально.
Сноски (примечание переводчика)
- Статья доступна по ссылке https://uxpajournal.org/wp-content/uploads/sites/7/pdf/JUS_Lewis_May2006.pdf
- Процент респондентов, которые дали высокие и низкие оценки (например, 4-5/1-2 для 5-балльной, 5-6-7/1-2-3 для 7-балльной шкалы)
Дополнительные материалы по критериям
- Двухвыборочный t-критерий: определение, формула и пример
- t-критерий Стьюдента
- Критерий хи-квадрат Пирсона
- Точный тест Фишера
- Доверительный интервал для среднего
- Что такое доверительные интервалы?
- Критерий Вальда
- Confidence Interval Calculator for a Completion Rate
👉Подписывайтесь на наш Телеграмм-канал — анонсы мероприятий, кейсы и статьи, расписание нашей Школы, и многое другое.