Google が Gemini を単なる会話アシスタント以上のものに変え、スマートフォン上で直接動作できる本物のエージェントにさらに近づけようと取り組んでいることは、以前から明らかでした。この意味で、Google 17.4 ベータ アプリで特定された新しい文字列は、いわゆる 画面の自動化、Gemini が注文や配車の予約など、Android アプリ内で実用的なタスクを完了できるようにする機能です。

Google Gemini 画面自動化の仕組み

この新機能は、現在 Google Labs の実験的な機能としてリストされており、内部ではコード名で識別されています。 ボノボ、という言葉を通して表現されます。 Gemini でタスクを完了する

基本的なアイデアは紙の上では単純で、Gemini はデバイスにインストールされているいくつかのアプリと直接対話し、画面上のユーザーのアクション (タッチ、スワイプ、画面間のナビゲーション) をシミュレートして、注文や車での旅行の予約などの具体的なタスクを完了できるようになります。

Google は、画面自動化について明確に語っています。この技術は、Android 16 QPR3 がすでにシステム レベルで基礎を築いていますが、たとえこのような場合によくあることですが、最初に利用できるのは互換性のある少数のアプリケーションに限定されることになります。

Google が特に強調する 1 つの側面は、ユーザーの責任に関するものです。機能の紹介メッセージの中で、同社は次のように明確に警告しています。

  • ジェミンは間違いを犯すことがある
  • あなたに代わってアシスタントが行うことについては、引き続きあなたが責任を負います
  • エージェントのアクションを中断して手動制御を再開することはいつでも可能です

このアプローチは、少なくともこの初期段階では、盲目的な自動化を避け、特に関係する操作の種類を考慮して、監視された意識的な使用に焦点を当てたいと考えているようです。

同様に重要なのはプライバシーの章であり、Google はこの章に関してかなり慎重な (そして、ある意味では制限的ですらある) アプローチを採用しています。 Gemini が画面自動化を介してアプリを操作するとき:

  • Keep Activity が有効になっている場合は、スクリーンショットが分析され、人間がレビューして Google サービスを改善できます。
  • Googleは、Geminiとのチャットにログイン情報や支払い情報を入力しないことを明示的に推奨しています
  • 緊急時や機密情報を含む活動に画面自動化を使用することは推奨されません。

この機能がまだ微妙な段階にあり、少なくとも現時点では、重要なシナリオや非常に個人的なシナリオを管理するように設計されていないことを裏付ける兆候。

ベータ自体内では、別の統合への参照も表示されますが、今回はコード名が付いています。 わさび、機能にリンク らしさ。この用語は新しいものではなく、実際、Android XR で現在 Google Meet の通話で使用されている 3D アバターを指すのに使用されているものと同じです。

さらに、いくつかの文字列は、自分自身の記憶を思い出す可能性を示唆しています。 似顔絵 プロンプト経由で。この機能が実際に Android 上の Gemini エクスペリエンスにどのように統合されるのか、またそれが単純な美的要素となるのか、それともおそらく XR 環境でのインタラクションに関連するより深いものとなるのかはまだ明らかではありません。

ベータ版で特定された機能でよくあることですが、Gemini の画面自動化のリリースに関する公式のタイムラインはなく、最終バージョンでどのように表示されるかについての確実性もありません。しかし、Google が、アシスタントが単に応答するのではなく、私たちの代わりに直接行動し、Android をますますインテリジェント エージェント向けのプラットフォームに変える未来に向けて断固として推し進めていることは明らかです。

したがって、Gemini は現在よりもはるかに運用可能になる予定ですが、Google が実際にどの程度の制御をユーザーに委ねるか、また初期段階でどのアプリが関与するかはまだわかりません。