Google интегрирует управление компьютером в Gemini 3.5 Flash

Что изменилось: Google интегрировал свою автономную модель использования компьютеров в Gemini 3.5 Flash, позволяя агентам ИИ управлять браузерами, мобильными и настольными системами в одной модели. (Curated by Copilot)

Почему это важно: Интеграция упрощает корпоративную автоматизацию, позволяя выполнять долгосрочные задачи, такие как тестирование программного обеспечения и исследования, а также добавляя меры безопасности для снижения рисков неправильного использования.

Кто получает выгоду: Разработчики и предприятия теперь могут легче создавать кроссплатформенных AI-агентов через Gemini API и платформу Enterprise Agent Platform, что может привести к потенциальным преимуществам в стоимости и скорости.

Google встраивает управление компьютером в Gemini 3.5 Flash

Google сделала «использование компьютера» встроенным инструментом в Gemini 3.5 Flash, устранив необходимость отдельной модели, позволяющей агентам ИИ видеть экраны, кликать, вводить и прокручивать браузеры, мобильные устройства и компьютеры. Эта консолидация позволяет разработчикам активировать использование компьютера наряду с другими возможностями, такими как выполнение кода и поиск внутри одной модели, доступные через Gemini API и платформу Gemini Enterprise Agent. Обновление отражает оценку Google о том, что функция готова к более широкому внедрению.

Почему эта интеграция меняет ландшафт агентов ИИ

Интегрировав управление компьютером в свою самую быструю агентную модель ИИ, Google ставит Gemini 3.5 Flash в конкуренцию с предложениями Claude Computer Use от Anthropic и OpenAI. Обновление снижает сложность для разработчиков, может снизить затраты по сравнению с более тяжёлыми моделями и расширяет возможности использования от автоматизации браузера до корпоративных рабочих процессов. Это отражает более широкую отраслевую тенденцию к интеграции агентных возможностей в универсальные модели, а не к их разделению.

Как Gemini 3.5 Flash теперь управляет вашим компьютером

Инструмент использования компьютера работает по циклу скриншотов и действий: ИИ просматривает экран, объясняет задачу и возвращает структурированные действия, такие как клики или нажатия клавиш, которые клиент выполняет перед отправкой обновленного просмотра. Gemini 3.5 Flash поддерживает браузерные, мобильные и десктопные среды, позволяя выполнять такие задачи, как заполнение повторяющихся форм, тестирование приложений и многосайтовые исследования. Разработчики могут попробовать эту функцию в демонстрации Browserbase или интегрировать её в свои рабочие процессы через API Gemini.

Меры безопасности и корпоративные гарантии

Для устранения рисков, таких как атаки с быстрыми инъекциями, Google применил целенаправленное враждебное обучение и предлагает две опционные гарантии: требовать явного подтверждения пользователя для чувствительных или необратимых действий и останавливать задачи при обнаружении косвенной инъекции подсказок. Компания рекомендует сочетать это с песочницей, строгим контролем доступа и человеческим контролем. Эти меры направлены на сокращение возможного неправильного использования, хотя технология всё ещё сталкивается с ограничениями из-за неожиданных изменений интерфейса.

Мы также выпускаем две дополнительные корпоративные системы защиты, которые позволяют предприятиям: Требовать явного подтверждения пользователя для чувствительных или необратимых действий. Автоматически останавливает задачи, если обнаружена косвенная инъекция подсказок.

Матео Кирос, менеджер по продукту, Google DeepMind

Аналитические прогнозы: будущее агентов ИИ

В краткосрочной перспективе предприятия могут внедрять Gemini 3.5 Flash для целенаправленной автоматизации в регулируемых средах, используя его функции безопасности для соблюдения требований управления. В долгосрочной перспективе, по мере совершенствования моделей в работе с непредсказуемыми интерфейсами, могут появиться полностью автономные мультиплатформенные агенты, что изменит рабочие процессы в таких секторах, как финансы, здравоохранение и обслуживание клиентов. В качестве альтернативы, резонансная утечка с участием таких агентов может привести к ужесточению регулирования и замедлению внедрения, что повторяет прошлые изменения в политике кибербезопасности.

(в пересказе)

Мнение авторов может не совпадать с мнением редакции. Cообщество журналистов. Non profit