GoogleのGeminiが、スマートフォンアプリで自動タスク実行機能を開始。Uberの配車やDoorDashでの食事注文を音声指示で完了。3月11日発売のGalaxy S26から利用可能に。

GoogleのGemini、スマホアプリで自動タスク実行が可能に―Uber配車や食事注文を音声で完了

Googleは2025年3月11日に発売されるSamsung Galaxy S26スマートフォンから、音声アシスタント「Gemini」による自動タスク実行機能を提供開始します。この機能により、ユーザーは「空港までUberを呼んで」と話しかけるだけで、Geminiがアプリを操作して配車手配を完了します。対応アプリは現時点でUber、Uber Eats、DoorDash、Grubhubで、今後Android 17のリリースとともに拡大予定です。この機能は米国と韓国で先行提供され、Galaxy S26に続いてGoogle Pixel 10シリーズにもソフトウェアアップデートで提供されます。10年前にGoogleやAppleが約束しながら実現できなかった「アシスタントによるタスク自動化」が、大規模言語モデル技術の進化により、ようやく実用段階に到達しました。この技術は、日常的な煩雑なデジタル作業を自動化し、ユーザーの時間を節約する可能性を秘めています。

Geminiの自動タスク実行機能の詳細

Geminiの自動タスク実行機能は、ユーザーの音声指示を受けて、スマートフォンアプリを自動的に操作します。例えば「空港までUberを呼んで」と指示すると、Geminiは仮想ウィンドウでUberアプリを開き、目的地を入力し、配車オプションを選択するまでの一連の操作を実行します。この処理はバックグラウンドで進行し、ユーザーは通知をタップすることで進捗状況を確認できます。

追加情報が必要な場合、Geminiは自動的にユーザーに質問します。例えばニューヨーク近郊で「空港まで」と指示した場合、3つの主要空港のどれを指すのか確認してきます。処理が完了すると通知が届き、Uberアプリの予約画面に移動します。最終的な予約確認と料金承認はユーザー自身が行う仕組みで、Geminiが勝手に予約を確定することはありません。

GoogleのAndroidエコシステム担当プレジデントであるSameer Samat氏は、この機能を「デジタル洗濯物」の自動化と表現しています。これは、やらなければならないが特に楽しくない日常的なデジタル作業を指します。現時点では一度に1つのタスクのみ実行可能ですが、将来的には複数タスクの同時処理も検討されています。

背景と経緯

音声アシスタントによるタスク自動化は、実は新しいアイデアではありません。約10年前、GoogleとAppleは自社の音声アシスタントが代わりにタスクを完了できると約束しました。AppleはSiriでUberを呼べると発表し、GoogleはGoogle Assistantでスターバックスに「いつもの注文」ができると主張しました。しかし、実際にはSiriはUberアプリを開くだけで、Googleの機能も使い勝手が悪く、最終的に削除されました。

これらの初期の試みが失敗した理由は、当時の技術では人間の自然な言語を十分に理解できなかったためです。音声アシスタントは限られたコマンドしか認識できず、複雑な指示や文脈の理解が困難でした。また、アプリとの連携も表面的で、実際の操作を代行する能力がありませんでした。

状況が変わったのは、大規模言語モデル、つまりLLMとは膨大なテキストデータから学習し、人間のような自然な言語理解と生成ができるAI技術が登場してからです。ChatGPTやGeminiなどのLLMは、文脈を理解し、複雑な指示を解釈し、適切な行動を計画する能力を持っています。この技術進化により、10年前の約束がようやく実現可能になりました。

技術的な仕組み

Geminiの自動タスク実行は、3つの異なる方法でアプリと連携します。第1の方法は、MCP統合とは、Model Context Protocolの略で、大規模言語モデルがサードパーティアプリと通信するためのオープンソースの共通言語です。この方法では、Geminiはアプリのバックエンドと直接通信し、処理過程は表示されず、最終的な確認画面のみが表示されます。

第2の方法は「App Functions」と呼ばれる開発者が構築できる機能で、Geminiが構造化された方法でアプリとやり取りできるようにします。これは、アプリ側がGeminiとの連携用に特別な機能を用意する方法です。

第3の方法が最も革新的で、これらの統合が存在しない場合に使用されます。Geminiは実際にアプリを開き、人間がするようにボタンをタップし、テキストボックスに入力し、メニューを操作してタスクを完了します。重要なのは、Geminiがアプリの「地図」を記憶しているわけではないという点です。初期のAIエージェント、例えばRabbitのR1などは、アプリの操作手順を記憶していましたが、Geminiは推論能力を使って計画を立て、画面を見て、その場で何をすべきか判断します。

この仕組みにより、アプリのデザインが変更されても、Geminiは新しいレイアウトに適応できます。例えば、ボタンの位置が変わったり、メニュー構造が変更されたりしても、Geminiは画面を理解して適切な操作を見つけ出せます。これは、固定された操作手順に依存する従来の自動化技術との大きな違いです。

複雑なタスクの処理能力

Geminiは単純な配車依頼だけでなく、より複雑なタスクも処理できます。Samat氏が示したデモでは、友人たちとのグループチャットでボードゲームの夜にピザを注文する会話がありました。各人が異なるピザを指定していました。Samat氏がGeminiに「注文を整理して」と指示すると、Geminiは画面から文脈を読み取り、全員の注文を整然とまとめました。

続いて「これをGrubhubで自宅配達で注文して」と指示すると、Geminiは自動タスク実行プロセスを開始しました。数分後、Geminiはすべての商品をカートに入れた状態で戻ってきました。Samat氏は内容を確認して注文ボタンを押すだけで済みました。

Geminiは問題に遭遇した場合でも、ユーザーに質問する前に回避策を見つけようとします。アシスタントの目的は、ユーザーに代わって作業を完了することであり、何度も質問してくるのでは意味がないからです。ある時、Geminiはピザのサイズとクラストの種類を尋ねてきました。別の機会には、レストランが混雑時に大きなピザの注文数を制限していたため、Geminiは代わりに中サイズのピザ2枚でよいか確認してきました。

別のデモでは、Google Keepのメモに、バーベキューパーティーの出席者リストとビーガンの人数が記載されていました。Samat氏がGeminiに必要なホットドッグとパンの数を計算するよう依頼すると、Geminiは計算を実行しました。その後、DoorDashのSafewayカートに必要な商品を追加するよう指示すると、数分後にすべてがカートに入っていました。

できること・できないこと

この技術により、日常的なアプリ操作の多くを音声指示だけで完了できるようになります。例えば、配車サービスの手配、食事の注文、買い物リストの作成と注文といった作業が該当します。複数の情報源から情報を集めて整理し、それを基に注文を組み立てるような複雑なタスクも可能です。グループチャットから注文内容を読み取り、メモから必要な数量を計算し、適切なアプリで注文するといった一連の流れを自動化できます。

一方で、現時点ではいくつかの制約があります。まず、一度に実行できるタスクは1つだけです。複数のタスクを同時に処理することはまだできません。また、対応アプリは現在、Uber、Uber Eats、DoorDash、Grubhubに限定されています。銀行アプリや医療アプリなど、機密性の高いアプリは意図的に除外されています。

最終的な確認と承認は必ずユーザー自身が行う必要があります。Geminiは注文内容をカートに入れるところまでは実行しますが、支払いボタンを押すのはユーザーの役割です。これは誤った注文や不正な取引を防ぐための安全措置です。また、現時点ではスマートフォンの画面が必要で、スマートグラスやAIペンダントなど他のデバイスから完全に操作することはできません。

2025年後半にAndroid 17がリリースされる際には、対応アプリが大幅に増える予定です。また、将来的には複数タスクの同時処理や、他のデバイスからの操作開始と認証も可能になる見込みです。Samat氏は、スマートグラスや車からタスクを開始し、最終認証を別の方法で行う仕組みを検討していると述べています。

プライバシーとセキュリティへの配慮

Geminiにアプリへのアクセス権を与えることには、当然プライバシーの懸念が伴います。Googleはこの点を重視し、最初のバッチには過度に機密性の高いアプリを含めていません。銀行アプリや医療記録アプリなど、個人の財務情報や健康情報を扱うアプリは、技術がさらに成熟し、セキュリティ対策が強化されるまで対象外です。

Samat氏は、Geminiが収集したデータは広告目的には使用されないと明言しています。また、ユーザーはGeminiが見たデータを削除できます。Googleは、ユーザーがシステムを信頼できることが重要であり、それは制御と透明性から生まれると考えています。ユーザーは、Geminiが何をしているのか、どのデータにアクセスしているのかを常に確認でき、不要なデータは削除できる必要があります。

セキュリティ面では、他人がデバイスを盗んで悪用することを防ぐ対策も検討されています。例えば、誰かがあなたのスマートグラスを盗んで「バーガー55個、フライドポテト55個、タコス55個を注文して」と指示することを防ぐ仕組みです。将来的には、生体認証や多要素認証を組み合わせた、より堅牢な認証システムが導入される予定です。

私たちへの影響

このニュースは、スマートフォンを日常的に使用するすべての人に影響を与える可能性があります。特に、配車サービスや食事配達アプリを頻繁に利用する人にとっては、時間の節約という直接的なメリットがあります。アプリを開いて、メニューを探して、オプションを選択して、住所を入力するという一連の作業が、音声指示1つで完了するようになります。

短期的な影響については、まず米国と韓国のGalaxy S26およびPixel 10ユーザーが3月11日以降に体験できるようになります。対応アプリは限定的ですが、日常的によく使うサービスが含まれているため、実用性は高いでしょう。ただし、初期段階では予期しない動作や誤解釈が発生する可能性もあり、ユーザーは最終確認を慎重に行う必要があります。

中長期的な影響としては、スマートフォンの使い方そのものが変わる可能性があります。現在、私たちは画面をタップして操作することに慣れていますが、将来的には音声指示が主要な操作方法になるかもしれません。Android 17のリリース後、対応アプリが増えれば、買い物、予約、情報検索など、より幅広いタスクを自動化できるようになります。また、スマートグラスやAIペンダントなど、新しいデバイスとの連携により、スマートフォンを取り出さずにタスクを開始できる未来も見えてきます。

ただし、注意すべき点もあります。自動化が進むほど、AIへの依存度が高まり、自分で操作する能力が低下する可能性があります。また、プライバシーとセキュリティのリスクは常に存在します。Googleは対策を講じていますが、ユーザー自身も何を自動化し、どのデータへのアクセスを許可するかを慎重に判断する必要があります。技術が成熟するまでは、最終確認を怠らず、予期しない動作に注意を払うことが重要です。

出典：Gemini Can Now Book You an Uber or Order a DoorDash Meal on Your Phone. Here’s How It Works（www.wired.com）