Почему критика AI-интервьюеров от NNGroup не универсальна

Ответ на статью Maria Rosala AI-Moderated Interviews: If, When, and How to Use Them от Nielsen Norman Group

Когда Nielsen Norman Group публикует статью с выводами исследования, индустрия прислушивается. Так и должно быть — за этим именем стоят десятилетия методологической работы. Поэтому когда Maria Rosala пишет, что AI-интервьюеры «следуют скрипту, а не за инсайтом», что их разговор «ощущается почти естественным, но всё-таки неестественным», что они не способны к полуструктурированным интервью — хочется кивнуть и закрыть тему.

Но мы не закроем. Потому что выводы NNGroup, при всей их обоснованности, описывают конкретные инструменты — Marvin и UserFlix, — а не AI-интервью как метод. Это разница принципиальная, и её стоит проговорить.

О чём говорит NNGroup

Исследователи NNGroup провели десять интервью с помощью двух платформ и зафиксировали набор проблем, которые знакомы каждому, кто работал с AI-интервьюерами первого поколения. AI идёт по списку вопросов, не адаптируясь к ответам. Не пропускает вопросы, которые респондент уже раскрыл в предыдущем ответе. Продолжает расспрашивать, когда тема исчерпана. Реагирует с неуместным восторгом на банальные ответы — один из участников сравнил это с поведением социопата. Делает неловкие паузы или, наоборот, перебивает. Резюмирует сказанное, но не даёт респонденту подтвердить, правильно ли его поняли.

Всё это — реальные проблемы. Мы наблюдали их сами, когда начинали работу над ЛИЗА — AI-системой для проведения глубинных интервью в Telegram, которую мы разрабатываем в UsabilityLab. ЛИЗА (Лингвистический Интеллектуальный Зондирующий Агент) родилась из практической потребности: наша компания провела более 1 800 исследовательских проектов за 19 лет, и мы видим, как растёт разрыв между объёмом задач и возможностями живых интервьюеров. Но, начиная строить собственного AI-интервьюера, мы столкнулись ровно с теми же проблемами, которые описывает NNGroup, — и были вынуждены решать их архитектурно, а не закрывать глаза. Именно поэтому их критика для нас не новость, но и не приговор методу. Вот почему.

Скрипт — это выбор архитектуры, а не свойство AI

Центральный тезис NNGroup: AI-интервьюеры проводят структурированные интервью, следуя заданному скрипту, и не способны к полуструктурированным, где интервьюер гибко управляет беседой. Это точное описание того, как работают Marvin и UserFlix. Но это не описание того, как AI-интервьюер обязан работать.

В ЛИЗА мы с самого начала заложили другой принцип. Вместо последовательного скрипта — «задай вопрос 1, потом вопрос 2, потом вопрос 3» — ЛИЗА работает с целевой моделью. У каждой темы есть критерии покрытия: какие аспекты должны быть раскрыты. AI оценивает, что уже сказано, и задаёт уточняющие вопросы только по непокрытым аспектам. Когда тема раскрыта — или когда респондент явно сигнализирует, что сказал всё, — система переходит дальше.

Это не полуструктурированное интервью в том смысле, в каком его понимает опытный исследователь, способный на лету переформулировать гипотезу. Но это и не ригидный скрипт, который NNGroup справедливо критикует. Это промежуточная форма, и она работает значительно лучше, чем те инструменты, которые протестировали в NNGroup.

AI не должен допрашивать, когда человеку нечего сказать

NNGroup описывает ситуацию, когда AI не понимает, что тема исчерпана, и продолжает задавать вопросы. Это действительно раздражает респондентов — и, что хуже, снижает качество данных, потому что люди начинают придумывать ответы, лишь бы что-то сказать.

В ЛИЗА мы встроили механизм детекции насыщения. Максимум два уточняющих вопроса на блок. Если респондент отвечает «не знаю», «больше нечего добавить», даёт короткий формальный ответ или отвечает вопросом на вопрос — система принимает это и двигается дальше. Не спрашивает «а вы уверены?», не пытается вытянуть ещё одну деталь. Человек сказал «всё» — значит всё.

Это не магия и не прорыв в AI. Это проектирование поведения через промпт и правила. Проблема «выжимания» — баг конкретных продуктов, а не неизбежное свойство технологии.

Sycophancy — это баг промпта

Одна из самых ярких цитат в статье NNGroup: «Wow, brilliant, great idea. Wow, what an insight — никто так себя не ведёт. Если мы видим, что человек так себя ведёт, мы говорим — окей, социопат». Трудно не согласиться. Избыточный восторг AI-интервьюера — это, пожалуй, самая раздражающая проблема из описанных.

Но давайте называть вещи своими именами: sycophancy — это не свойство AI-интервью как метода. Это свойство промпта, который написали разработчики конкретного продукта. Или, точнее, свойство промпта, который они не написали, — потому что не прописали антипаттерны.

В ЛИЗА мы явно определили, чего система не должна делать. Не восторгаться ответами. Не давить на респондента. Не задавать механических уточнений вроде «расскажите подробнее». Эмпатия — калиброванная, без восклицательных знаков. И что важно: мы тестируем на этих антипаттернах. Это часть регрессионного набора тестов, а не благое пожелание в документации.

Мессенджер — не ограничение, а другой формат

Значительная часть критики NNGroup связана с неестественностью разговора: AI перебивает, делает длинные паузы, респонденты не понимают, когда можно говорить. Один участник начал делать другие дела, когда Marvin замолчал. Другая жаловалась, что боялась сделать паузу, потому что система могла перейти к следующему вопросу. Участники жаловались, что не на что смотреть, кроме «светящейся сферы». Кто-то боялся, что не отличит AI от реального человека.

Все эти проблемы существуют в одном формате — голосовом интервью в реальном времени, где AI имитирует живой разговор и неизбежно проигрывает. ЛИЗА работает в Telegram, и это принципиально другой формат с другими правилами.

В мессенджере нет реального времени — а значит, нет неловких пауз. Респондент думает столько, сколько ему нужно. Отвечает, когда удобно — можно прерваться на обед и вернуться. AI «думает» две-пять секунд — для мессенджера это нормально. Никто не ожидает мгновенной реакции, никто не чувствует давления.

Но дело не только в ритме. Telegram — это среда, в которой люди уже находятся. Интервью можно провести сразу после события — покупки, обращения в поддержку, завершения задачи. Эмоции свежие, контекст не потерян. Не нужно ничего устанавливать, настраивать, никуда переходить.

Это не имитация лаборатории. Это исследование в естественной среде. И для многих задач это принципиально лучше, чем лаборатория.

Приватность — вопрос инфраструктуры

NNGroup отмечает, что некоторые респонденты сдерживались и не делились информацией, потому что не понимали, как AI будет использовать их данные. Одна участница сказала: «С человеком я чувствую, что за моей информацией стоит ответственность. А с AI — я не знаю, как он ею распорядится».

Это важная проблема, и она не решается одной только архитектурой промпта. Но она решается прозрачностью и инфраструктурой. ЛИЗА хранит данные в собственной PostgreSQL, на серверах в России — для российских исследований это критически важно. Респондент с самого начала знает, что общается с AI. Данные не уходят в облака третьих сторон.

Доверие не возникает автоматически — но оно и к живому интервьюеру не возникает автоматически. Доверие строится через прозрачность процедуры, и AI-интервьюер вполне может эту прозрачность обеспечить.

Чего NNGroup не видит за деревьями

Самый серьёзный пробел в статье NNGroup — это рамка, в которой авторы рассматривают AI-интервьюеров. Они сравнивают AI с экспертным интервьюером и, естественно, находят AI недостаточным. Но это ложная дихотомия.

AI-интервьюер — не дешёвый эксперт. Это инструмент для другого слоя исследований. Эксперт проводит 5–10 глубинных интервью за 2–4 недели. ЛИЗА проводит 50–500 интервью за 2–4 дня. Стоимость проведения каждого интервью — на порядки ниже, хотя полная стоимость исследования включает и последующий анализ собранных данных. Но даже с учётом анализа экономика принципиально другая. Эти два инструмента решают разные задачи.

Когда вам нужно понять, как люди думают о новой категории продуктов, и вы не знаете, какие вопросы задавать, — вам нужен эксперт. Когда у вас есть сформированные гипотезы и нужно проверить их на большой выборке — AI-интервьюер не просто допустим, он предпочтителен. Когда нужна быстрая обратная связь после релиза, первичный скрининг перед глубинными интервью, лонгитюдное дневниковое исследование — AI-интервьюер работает там, где эксперт физически не масштабируется.

NNGroup это, впрочем, признаёт — в конце статьи есть раздел о подходящих сценариях. Но общий тон публикации создаёт впечатление, что AI-интервьюеры — это в лучшем случае компромисс. Мы считаем, что это новый инструмент с собственной областью применения, а не ухудшенная версия существующего.

Domain knowledge — вопрос подготовки скрипта

NNGroup предупреждает: если респонденты используют специализированную терминологию, AI может не понять и не задать правильные уточняющие вопросы. Один из участников исследования, руководитель исследовательской команды, прямо сказал: «Тот тип исследований, которым занимается моя команда, требует такого объёма предметной экспертизы, что AI-интервьюер с этим не справится».

Это справедливое замечание для генеративных исследований в узких профессиональных доменах. Но для структурированных и полуструктурированных интервью domain knowledge — это вопрос подготовки скрипта. Если исследователь указал в инструкциях, что респонденты — врачи и будут использовать медицинские термины, современные языковые модели прекрасно работают с профессиональным контекстом. Claude, GPT-4 и другие модели обучены на огромных корпусах специализированных текстов — они не путаются в терминологии, если им правильно задать рамку.

Когда AI-интервьюер уместен, а когда нет

Мы не утверждаем, что AI-интервьюер — универсальный инструмент. У него есть чёткая область применения, и за её пределами нужен эксперт.

AI-интервьюер хорошо подходит для исследований с большой выборкой — от тридцати респондентов и выше. Для валидации уже сформированных гипотез. Для сбора обратной связи по конкретным фичам и пользовательским сценариям. Для географически распределённой аудитории и мультиязычных исследований. Для дневниковых исследований, где важна регулярность и минимальная нагрузка на респондента. Для первичного скрининга перед глубинными интервью.

Эксперт остаётся незаменим в генеративных исследованиях, где тема ещё не определена. В работе с уязвимыми группами, где требуется особая чуткость. В исследованиях, где важна импровизация и способность на лету менять направление. В ситуациях, где критична невербалика — выражение лица, язык тела, интонация.

Два инструмента, две области. Не конкуренция, а взаимодополнение.

Что мы хотим сказать

Критика NNGroup валидна для тех инструментов, которые они протестировали. Marvin и UserFlix — продукты первого поколения со всеми свойственными ему ограничениями. Но технология не стоит на месте, и судить о методе по первым реализациям — значит сужать перспективу.

Архитектура имеет значение. Goal-driven модель с детекцией насыщения — это не то же самое, что последовательный скрипт. Асинхронный формат в мессенджере снимает целый класс проблем, связанных с имитацией живого разговора. Sycophancy, потеря контекста, жёсткий скрипт — это баги реализации, которые решаются правильной архитектурой и промптами.

Сто респондентов за несколько дней решают задачи, которые десять глубинных интервью за месяц решить не могут. И наоборот. Инструменты не конкурируют — они дополняют друг друга.


О ЛИЗА

ЛИЗА (Лингвистический Интеллектуальный Зондирующий Агент) — AI-система для проведения глубинных интервью в Telegram. Разрабатывается UsabilityLab. Мы знали о проблемах, описанных NNGroup, задолго до их публикации — и строили ЛИЗА как ответ на каждую из них.

Goal-driven архитектура. Вместо последовательного списка вопросов — критерии покрытия темы с гибкими уточнениями.

Детекция насыщения. Максимум два follow-up на блок, распознавание сигналов завершения, автоматический переход при исчерпании темы.

Верификатор понимания. Система извлекает цитаты респондента и проверяет их принадлежность к текущей теме, предотвращая путаницу между блоками.

Калиброванная эмпатия. Антипаттерны прописаны явно и тестируются: никаких восторгов, контекстные уточнения вместо механических «расскажите подробнее».

Асинхронный формат в Telegram. Нет реального времени — респондент думает и отвечает в своём ритме, без давления и перебиваний.

Данные под контролем. Собственная PostgreSQL на серверах в РФ, прозрачность с первого сообщения: респондент знает, что общается с AI.

Масштаб другого порядка. 50–500 респондентов за 2–4 дня. Не замена эксперту, а инструмент для другого слоя исследований.

Статус: V3 в продакшене, бета-тестирование.