AI-агенты: от ассистентов к операторам (2024–2025)

Что произошло

Сан-Франциско, 23 января 2025 года. OpenAI запускает Operator — AI-агент, который управляет браузером за пользователя. Не отвечает на вопросы, не генерирует текст — буквально открывает веб-страницы, заполняет формы, нажимает кнопки, прокручивает списки, бронирует столики в ресторанах и заказывает доставку продуктов. Пользователь описывает задачу на естественном языке: «Закажи мне продукты из Instacart на этот рецепт». Operator делает остальное.

Это не первое подобное объявление. Тремя месяцами ранее, 29 октября 2024-го, Anthropic представила Computer Use для Claude — способность AI-модели управлять курсором мыши, кликать по элементам интерфейса, печатать текст и читать содержимое экрана. Технически модель получает скриншоты, анализирует их и отправляет команды: «переместить курсор на координату (340, 520), нажать левую кнопку мыши». AI видит интерфейс так же, как его видит человек — через пиксели на экране. Никакого API, никакого специального доступа. Скриншот, анализ, клик.

Парадокс стал очевиден: AI-агенты используют интерфейсы, спроектированные для людей. Через визуальное распознавание экрана — через глаза, а не через программный интерфейс. Это работает. Но это примерно так же эффективно, как нанять переводчика для чтения книги, у которой есть версия на нужном языке.

В ноябре 2024-го Anthropic предложила решение: Model Context Protocol (MCP) — открытый стандарт подключения AI-моделей к внешним инструментам. MCP описывает универсальный способ, которым модель может обращаться к базе данных, файловой системе, календарю, почтовому клиенту, CRM — к любому сервису, предоставляющему MCP-совместимый интерфейс. Вместо того чтобы смотреть на скриншот почтового клиента и кликать «Написать письмо», агент вызывает функцию send_email напрямую. Вместо визуального распознавания — программное взаимодействие. MCP стал для AI тем, чем USB стал для периферийных устройств: универсальным разъёмом.

6 марта 2025 года — следующий акт. Китайский стартап Manus представляет первого полностью автономного AI-агента, способного выполнять сложные многошаговые задачи от начала до конца. Manus не просто открывает браузер и кликает — он декомпозирует задачу, планирует последовательность действий, выбирает инструменты, обрабатывает промежуточные результаты и корректирует план, если что-то идёт не так. Демонстрации включали исследование рынка с анализом нескольких источников, создание веб-сайтов и подготовку аналитических отчётов. Мир увидел не ассистента, а оператора — систему, которая работает самостоятельно, пока человек занят другими делами.

А в апреле 2025-го Google представляет протокол Agent-to-Agent (A2A) — стандарт общения AI-агентов между собой. Если MCP описывает, как агент подключается к инструментам, то A2A описывает, как агенты координируют работу друг с другом. Один агент исследует рынок, второй готовит презентацию, третий бронирует переговорную — и они договариваются между собой без участия человека.

За шесть месяцев — от октября 2024-го до апреля 2025-го — AI прошёл путь от «помогает человеку» до «действует за человека» и далее до «координируется с другими агентами». Три ступени, каждая из которых фундаментально меняет отношения между пользователем и интерфейсом.

Контекст эпохи

AI-агенты 2024–2025 годов — логическое продолжение траектории, начавшейся с ChatGPT в ноябре 2022-го. Но между чат-ботом и агентом — принципиальный разрыв.

ChatGPT разговаривал. Отвечал на вопросы, генерировал текст, помогал думать — но оставался внутри диалогового окна. Пользователь спрашивал, получал ответ, сам решал, что с ним делать. AI был советником. Все действия выполнял человек.

AI-агенты действуют. Они выходят за рамки диалога в реальный мир цифровых интерфейсов. Кликают, заполняют, отправляют, бронируют. Разница — как между навигатором, который показывает маршрут, и автопилотом, который ведёт машину.

Параллельно вызревала инфраструктура. К 2024 году языковые модели достигли уровня, достаточного для планирования многошаговых задач. Контекстные окна увеличились с 4 тысяч токенов (GPT-3.5) до миллиона и более (Gemini 1.5). Стоимость вычислений продолжала падать. Экосистема инструментов — от Cursor до Claude Code — создала прецедент: AI, управляющий профессиональными инструментами, оказался не фантастикой, а повседневностью для разработчиков. Оставалось распространить этот опыт на всех пользователей.

Важен и культурный контекст. К 2025 году общество привыкло делегировать. Алгоритмы рекомендовали фильмы, музыку, маршруты. Автозаполнение писало сообщения. Умный дом регулировал температуру. AI-агент — следующий шаг по той же кривой: делегирование не выбора, а действия. Не «что посмотреть сегодня вечером», а «забронируй мне кинотеатр и закажи такси».

Значение для UX

Появление AI-агентов ставит перед UX-дизайном вопрос, которого не было за всю историю дисциплины: кто пользователь?

С момента, когда Дон Норман ввёл термин User Experience в 1993 году, «пользователь» означал человека. Всё проектирование строилось вокруг человеческого восприятия: закон Фиттса описывал точность человеческих движений, закон Хика — время человеческого выбора, эвристики Нильсена — принципы восприятия человеческого интерфейса. AI-агенты вводят второго пользователя — машину.

Двойной интерфейс. Когда AI-агент управляет браузером через скриншоты и клики, он использует человеческий интерфейс. Но делает это неэффективно: распознавание элементов по пикселям — ресурсоёмкая операция, подверженная ошибкам. Кнопка, которая выглядит кликабельной для человека, может быть неразличима для агента, если у неё нет семантической разметки. Выпадающее меню, понятное человеку по визуальным подсказкам, озадачивает агента, если анимация открытия изменяет координаты элементов. UX-дизайнерам предстоит проектировать интерфейсы, работающие для обоих типов пользователей: визуально понятные для человека и семантически чёткие для агента.

API как интерфейс. MCP и A2A сигнализируют: программный интерфейс становится таким же объектом UX-проектирования, как графический. Если агент взаимодействует с сервисом через API, качество этого API определяет пользовательский опыт — пусть и опосредованно. Плохо спроектированный API означает, что агент будет ошибаться, тормозить или не сможет выполнить задачу. Юзабилити распространяется на машинных пользователей.

Agent-friendly дизайн. Появляются новые паттерны проектирования. Чёткие, предсказуемые формы без визуальных хитростей. Семантическая HTML-разметка, которую десятилетиями требовали специалисты по доступности (и которую десятилетиями игнорировали), внезапно становится критической — агенты, как и скринридеры, полагаются на семантику, а не на визуальные подсказки. Ирония: то, что делает интерфейс доступным для людей с инвалидностью, делает его доступным и для AI. Доступность и agent-friendly дизайн оказались двумя сторонами одной медали.

Делегирование и контроль. Когда человек передаёт действие агенту, возникает вопрос контроля. Сколько автономии допустимо? Должен ли агент спрашивать подтверждение перед каждой покупкой? Перед каждым бронированием? Перед отправкой письма? UX-дизайнерам предстоит проектировать не интерфейс, а уровни автономии — спектр от полного контроля человека до полной автономии агента. Это новая дизайн-задача, не имеющая прямых аналогов в истории дисциплины.

Цепочка от Тьюринга к агентам проходит через все ключевые точки истории вычислений. Абстрактная машина 1936 года стала реальным компьютером 1940-х. Перцептрон 1960 года стал нейросетью 2010-х. ChatGPT 2022 года стал агентом 2025-го. На каждом этапе машина забирала у человека ещё одну функцию: вычисление, распознавание, генерацию, теперь — действие.

AI-агенты 2024–2025 годов — не финальная точка. Это начало нового цикла. UX как дисциплина впервые сталкивается с необходимостью проектировать опыт не только человека, но и машины — и, что ещё сложнее, опыт их совместного взаимодействия. Кто контролирует процесс? Кто несёт ответственность за ошибку агента? Как пользователь узнает, что агент сделал от его имени? Эти вопросы станут центральными для UX-практики следующего десятилетия.

Связанные статьи

  • Что такое UX — AI-агенты расширяют понятие пользователя: теперь это не только человек, но и машина, действующая от имени человека.
  • Что такое юзабилити — юзабилити API и программных интерфейсов становится такой же задачей, как юзабилити графического интерфейса.
  • Эвристики Нильсена — эвристика «видимость состояния системы» приобретает новый смысл: пользователь должен видеть, что делает агент от его имени.

Из серии «История UX»:

  • AI и UX: от AlphaZero к ChatGPT (2017–2023) — предыстория: от генеративного AI к агентному. ChatGPT разговаривал, агенты действуют.
  • Машина Тьюринга (1936) — от абстрактной модели вычислений к AI, который управляет компьютером. Тьюринг описал машину, выполняющую инструкции; AI-агент выполняет инструкции пользователя.
  • Перцептрон Розенблатта (1960) — первая обучающаяся нейросеть. Шестьдесят пять лет спустя потомки перцептрона не просто распознают образы — они управляют интерфейсами через распознавание скриншотов.
  • WCAG и доступность (1999–2022) — семантическая разметка, которую требовал WCAG для скринридеров, оказалась критически важной и для AI-агентов. Доступность и agent-friendly дизайн сходятся.

Вопросы и ответы

Что такое AI-агент и чем он отличается от чат-бота?

Чат-бот отвечает на вопросы в рамках одного диалога. AI-агент действует: он самостоятельно открывает сайты, заполняет формы, нажимает кнопки, переключается между приложениями и выполняет многошаговые задачи без пошагового контроля человека. Если чат-бот — это справочная, то агент — это ассистент, который сам идёт в справочную, получает документы и приносит результат.

Что такое Model Context Protocol (MCP) и зачем он нужен?

MCP — открытый протокол, опубликованный Anthropic в ноябре 2024 года. Он стандартизирует способ, которым AI-модели подключаются к внешним инструментам: базам данных, API, файловым системам. До MCP каждая интеграция требовала индивидуальной разработки. MCP создал универсальный разъём — аналог USB для AI, — позволяющий модели работать с любым инструментом через единый интерфейс.

Почему AI-агенты важны для UX-дизайна?

AI-агенты становятся новым типом пользователя. Они взаимодействуют с интерфейсами через скриншоты и клики — так же, как люди, но с другими потребностями: им не нужны красивые анимации, но критически важны чёткая разметка, предсказуемая навигация и машиночитаемые элементы. UX-дизайнерам предстоит проектировать двойной интерфейс — удобный и для человека, и для агента.