昨日の夕方、 アンドロイドショー | I/O エディションGoogleは、最新で直感的なインターフェイスと、マウスポインタから始まる人工知能にスマートフォンとの深い統合に完全に焦点を当てた新しいカテゴリのAndroidノートブックであるGooglebooksを正式に発表しました, 名前が変更されました マジックポインター。
このアイテムは、のチームによって開発されました。 Googleディープマインド 発表後、AI ベースのポインタの背後にある原理についてさらに詳細を共有しました。すべての詳細を調べてみましょう。
Google Discover で Apple Geek LABO をフォローする
マジックポインター:AIがマウスポインターに組み込まれています
Googlebook は、Gemini Intelligence 用に設計されています。Gemini の新しい政府機関向けバージョンで、ユーザーは日常的で反復的な二次的な作業をすべてアシスタントに任せて、重要なことに集中できるようになります。
新しいラップトップ カテゴリを発表する際、Google は次のように提案しました。すべてはポインターから始まります。ラップトップを開いたときに最初に目に入るものです。その結果、マウンテン ビュー周辺では、右クリックの導入以来大きな変更が加えられていなかったこの要素を再発明しようとしました。
まさにこの理由から、Big G には次のチームが参加しました。 ディープマインド 解決策を見つけて開発作業を行った結果、新しいものが生まれました。 マジックポインター、Gemini 機能を備えた強化されたポインター: マウスを動かすだけでポインターが動きます。ユーザーが画面上の何かをポイントするたびに、状況に応じた迅速な提案が提供されます。
マウスポインタはAIの時代へ
その後、Google DeepMind チームはブログで次のような投稿を共有しました。 人工知能の時代に向けてマウス ポインターを再発明する その背後にあるすべての詳細が記載されています マジックポインター そして未来のユーザーインターフェースについても。
マウス ポインタは常にコンピュータ画面上で切り離せない相棒であり、あらゆる Web サイト、ドキュメント、ワークフローに存在します。技術の進化にもかかわらず、指針は半世紀以上にわたってほとんど変わっていません。
私たちは、ポインタが何を指しているのかだけでなく、なぜそれがユーザーにとって重要なのかを理解できるようにする、AI を活用した新しい機能を模索してきました。
私たちの目標は、よくある不満を解決することです。一般的な AI ツールは別のウィンドウで動作するため、ユーザーは自分の世界をそのウィンドウにドラッグする必要があります。私たちはその逆、つまりワークフローを中断することなく、ユーザーが使用するすべてのツールにわたってユーザーと統合できる直感的な AI を望んでいます。たとえば、建物の写真を指して「道順を教えて」と尋ねると想像してください。 AI システムがすでにコンテキストを理解している場合は、他に何も必要ありません。
Google DeepMind チームは、4 つのインタラクション原則を開発しました。これらを同時に使用することで、コンピュータが自然言語とよりシンプルで直感的なインタラクションに基づいてユーザーのコンテキストと意図を理解できるようになります。
1. ワークフローを逸脱せずに維持する
最初の原則は、ユーザーが作業している場所であればどこでも、アプリとオペレーティング システムの一部を区別することなく、AI ベースのポインターを利用できるということです。
たとえば、PDF をポイントして箇条書きの概要を電子メールに直接貼り付けるように要求したり、統計の表にカーソルを置いて円グラフを要求したり、レシピを強調表示してすべての材料を 2 倍にするように要求したりすることができます。
2. 視覚的および意味的コンテキストの取得
2 番目の原則は、AI ベースのポインターは、ユーザーにとって何が重要かを見て理解するための「目を持つ」要素である、ポインターの周囲の視覚的および意味論的なコンテキストを取得するプロセスを簡素化する必要があると述べています。
私たちの実験用システムでは、ユーザーがポイントするだけで、AI がユーザーがどの単語、段落、画像の一部、またはコード ブロックの助けを必要としているかを正確に認識します。
3. 「自然な」適応症を理解する
3 番目の原則では、AI ポインターが自然言語および合成言語 (「これを修正する」、「あれをここに移動する」、「これはどういう意味ですか?」) を理解して、コンピューターとの対話を日常の対話に近いものに変換できる必要があります。
4. 画面上のピクセルに命を吹き込む
4 番目の原則では、AI ベースのポインターが単に私たちが指している場所を追跡するだけでなく、私たちが指しているものを理解し、画面上のピクセルを瞬時に操作できる構造化されたエンティティ (場所、日付、オブジェクト) に変換できることが必要です。
走り書きしたメモの写真がインタラクティブな To Do リストになります。旅行ビデオの一時停止したフレームが、その魅力的なレストランを予約するリンクになります。
これらの原則は Chrome と Googlebooks にも導入されます
Google DeepMind チームは、テクノロジーを人間の行動に(その逆ではなく)適応させるように設計されたこれらの原則が、Chrome のポインティング機能と、Googlebooks によって提供される新しいユーザー エクスペリエンスに統合されるだろうと述べています(このカテゴリの最初の指数は秋に予想されます)。
- Chrome に関する限り、統合は次のような形式になります。 Chrome のジェミニ ポインタを使用すると、Web ページの特定の部分についてアシスタントに質問できます (たとえば、ページからいくつかの製品を選択し、それらを比較するよう求めることができます)。
- Googlebook に関しては、予想通り、AI ベースのポインタが次のように実現されます。 マジックポインター ユーザーが常に Gemini を手元に置くことができるようにします。
結論として、DeepMind チームは Google AI Studio 内で人工知能ベースのポインターの 2 つのデモを開発したことを指摘したいと思います (これらのページには以下のリンクからアクセスできます)。
画像を編集する |地図上で場所を探す
