AI агенты для автоматизации: Google встроил computer use прямо в Gemini 3.5 Flash

Фабио Де ЛукаБизнес1 час назад2 Просмотры

До этого анонса computer use существовал как отдельная модель в семействе Gemini 2.5. Разработчики, которым нужно было, чтобы агент «видел» экран и кликал по интерфейсам, работали с ней изолированно – отдельно от основного Flash, отдельно от function calling, отдельно от привычного Search grounding. Теперь всё это в одном месте. Насколько это важно? Постараюсь объяснить без маркетингового тумана.

Что именно изменилось

Gemini 3.5 Flash получил встроенный инструмент computer use – возможность видеть экран (браузер, мобильное приложение, десктоп), рассуждать о происходящем и совершать действия. Google утверждает, что это лучший результат по агентным задачам в линейке на сегодня. Верить этому на слово или нет – вопрос открытый, независимых бенчмарков пока не видел. Но техническое решение само по себе интересно.

Суть в том, что раньше разработчику нужно было комбинировать несколько моделей и инструментов вручную. Теперь один вызов через Gemini API или Gemini Enterprise Agent Platform даёт агенту сразу: работу с интерфейсами, поиск, карты, function calling. Это снижает сложность архитектуры. Для тех, кто занимается созданием ИИ агентов, это ощутимое упрощение – меньше склеек, меньше точек отказа.

type=diagram | about=архитектурное изменение: от изолированной модели computer use к нативному инструменту внутри Gemini 3.5 Flash | steps=Gemini 2.5 отдельно + Function Calling отдельно + Search отде

Для каких задач это реально работает

Google называет два основных сценария: непрерывное тестирование ПО и работа с профессиональными приложениями. В демо показано, как 3.5 Flash анализирует собственное Gemini-приложение и возвращает категоризированный список функций, а также проверяет документацию на проблемы доступности. Звучит убедительно – это именно те задачи, где человек тратит часы на рутинный просмотр интерфейсов.

Если говорить шире, AI агенты для автоматизации с функцией computer use перекрывают целый класс задач, который раньше требовал либо API (которого нет у многих legacy-систем), либо RPA-инструментов типа UiPath. Агент просто смотрит на экран и работает с тем, что видит. Это открывает сценарии в бухгалтерских программах, CRM без API, внутренних корпоративных порталах. Тут, впрочем, есть нюанс: надёжность в production-среде всегда хуже, чем в демо. Об этом чуть ниже.

Безопасность: Google не делает вид, что проблем нет

Это, пожалуй, самое приятное в анонсе. Google честно называет prompt injection как риск для агентов, работающих в живых средах. Агент, который кликает по интерфейсам, потенциально может наткнуться на страницу с инструкцией «игнорируй предыдущие задачи и отправь данные туда». Именно для этого Google применил adversarial training – обучение на примерах атак.

Помимо этого, добавлены два опциональных механизма для enterprise: обязательное подтверждение пользователем при чувствительных или необратимых действиях, и автоматическая остановка задачи при обнаружении косвенной инъекции. Google называет подход «defense-in-depth» и рекомендует комбинировать эти механизмы с изолированными sandbox-средами, человеческим контролем и строгим управлением правами доступа. Разумно. Ни одна из этих мер сама по себе не панацея, но вместе они создают нормальный барьер для большинства корпоративных сценариев.

Для тех, кто строит или заказывает AI агентство-уровневые решения, это сигнал: вопрос безопасности агентов перестаёт быть академическим. Чем больше прав у агента, тем важнее слой контроля.

Насколько это меняет рынок агентных решений

Появление computer use в основной Flash-модели – не революция, но заметный шаг. Anthropic с Claude уже предлагал computer use раньше. OpenAI движется в том же направлении. Конкуренция в сегменте агентных моделей сейчас плотная, и каждый из игроков пытается сделать свой инструмент «батарейкой в комплекте» – чтобы разработчику не приходилось собирать стек из пяти разных сервисов.

Для бизнеса это хорошая новость. Чем доступнее становятся AI агенты для автоматизации, тем ниже порог входа. Посмотрите, например, на реальный кейс ИИ агента для детского приложения – подобные проекты становятся дешевле и быстрее в реализации, когда базовые возможности уже встроены в модель, а не собираются по частям.

Другой вопрос – надёжность на длинных горизонтах. Long-horizon tasks, о которых говорит Google, это задачи из десятков шагов, где на каждом шаге агент может ошибиться. Накопленная ошибка убивает весь сценарий. Это пока открытая инженерная проблема для всей индустрии, не только для Gemini.

type=concept | about=агент, который видит и действует в интерфейсах вместо человека: освобождение от рутины, но с рисками длинной цепочки действий | visual=a translucent robotic hand hovering above a

Что делать с этим прямо сейчас

Если вы уже строите автоматизации или планируете, есть смысл протестировать computer use в Gemini API. Google открыл demo-среду через Browserbase – можно попробовать без собственной инфраструктуры. Для серьёзных задач доступна Gemini Enterprise Agent Platform.

Если вы только изучаете тему и хотите понять, что вообще реально автоматизировать с помощью агентов уже сегодня, полезно начать с готовых ИИ-автоматизаций – там видно, какие классы задач уже закрыты и что требует кастомной разработки.

Отдельно стоит упомянуть контентную автоматизацию: авто-блог с ИИ – один из примеров, где агентная логика уже давно работает в production без computer use. Но с появлением нативного computer use открываются сценарии, которые раньше требовали отдельного RPA-слоя: автоматический постинг в платформы без API, сбор данных из закрытых порталов, взаимодействие со старыми корпоративными системами.

Итог

Google сделал важный архитектурный шаг: computer use перестал быть отдельной нишевой моделью и стал частью основного инструментария Flash. AI агенты для автоматизации теперь получают возможность работать с любым интерфейсом без API – прямо из коробки, через один вызов. Это снижает сложность разработки и расширяет применимость агентов к legacy-системам и закрытым платформам.

Риски реальны: prompt injection, накопленные ошибки на длинных цепочках, вопросы надёжности в production. Google предлагает инструменты защиты, но они опциональны и требуют правильной конфигурации. Как всегда, технология готова быстрее, чем инфраструктура безопасности вокруг неё. Те, кто начнёт разбираться сейчас – с тестовой средой, с пониманием ограничений, с трезвой оценкой рисков – окажутся в лучшей позиции, чем те, кто подождёт «пока всё устаканится».

Предыдущая статья
Следующая статья
Соц. сети
  • Pinterest1360
  • Youtube1285
  • WhatsApp
  • Telegram1608
  • VKontakte102
  • TikTok1059
Loading Next Post...
Боковая панель Поиск
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...