Возможно, вскоре Google Gemini сможет выполнять вашу работу.

Согласно сообщениям, Google работает над масштабным обновлением своего генеративного ИИ-помощника. GeminiЭто может превратить его из простого разговорного помощника в нечто, более близкое к настоящему бизнес-агенту. Недавний экспериментальный анализ кода приложения Google, проведенный [имя автора] 9to5GoogleРазработчики обнаружили фрагменты кода, указывающие на внутреннюю функцию, известную как «автоматизация экрана». Это говорит о том, что Gemini вскоре сможет выполнять действия непосредственно от вашего имени в некоторых приложениях Android, например, размещать заказы или бронировать авиабилеты, без необходимости вручную нажимать на экраны.

Вскоре Google Gemini сможет выполнять ваши задачи.

Хотя Gemini уже справляется с задачами, требующими диалогового взаимодействия, такими как составление электронных писем или создание планов исследований, это обновление, по всей видимости, направлено на то, чтобы позволить ему буквально взаимодействовать с интерфейсами приложений, нажимая кнопки и перемещаясь по экранам для выполнения задач, которые вы обычно выполняете самостоятельно. Первые данные из бета-версии показывают, что эти возможности первоначально будут ограничены несколькими поддерживаемыми приложениями и будут делать упор на контроль со стороны пользователя. Google предупреждает, что «Gemini может совершать ошибки», и что пользователи остаются ответственными за действия, предпринятые от их имени.

Как это обновление преобразует ИИ из помощника в агента?

Концепция автоматизации экранных процессов представляет собой значительный шаг на пути к предоставлению искусственному интеллекту большей автономии в повседневных цифровых рабочих процессах. Вместо того чтобы просто предлагать варианты действий, Gemini вскоре может реализовать эти варианты непосредственно в приложениях. Ранние фрагменты кода из бета-версии Google также указывают на меры предосторожности в отношении конфиденциальности, такие как рекомендации пользователям не вводить данные для входа в систему или платежную информацию в диалогах с ИИ и предупреждение о том, что скриншоты могут быть проверены для улучшения функции. Google уже предлагает некоторые возможности агента через свою платформу Gemini Agent в Workspace и в веб-версии, где ИИ может обрабатывать сложные рабочие процессы и координировать действия между сервисами, но автоматизация экранных процессов может перенести эти возможности непосредственно на смартфоны и в повседневное использование приложений.

Если эти функции будут широко внедрены, это может означать сдвиг в том, как люди взаимодействуют с мобильными устройствами: от простого касания и свайпа до предоставления инструментам искусственного интеллекта разрешения действовать от их имени. Это может упростить повседневные действия, но также поднимает вопросы контроля, безопасности и надзора, особенно когда автоматизация затрагивает такие конфиденциальные задачи, как бронирование или финансовые транзакции.

Согласно сообщениям, Google позиционирует эти обновления как необязательные и контролируемые, позволяя пользователям отключать или переопределять Gemini в любое время. Однако функция автоматизации экрана все еще находится в разработке и еще не вышла в стабильной версии.

Gemini