Googleが写真や文章から操作可能な仮想世界を生成するAI「Project Genie」を公開。最大60秒間の探索が可能だが、月額250ドルの有料プラン加入者限定。AI生成動画の新たな可能性を示す。
Google、写真から操作可能な世界を生成するAI「Project Genie」を公開
Googleは2026年1月、写真や文章の指示から操作可能な仮想世界を生成するAI技術「Project Genie」を公開しました。このシステムは、ユーザーが提供した画像や文章の説明をもとに、キーボード操作で探索できる動画世界を作り出します。生成される世界は最大60秒間探索でき、720pの解像度で毎秒約24フレームで動作します。Project Genieは、Googleが昨年発表した「Genie 3」という研究プロジェクトを一般向けに改良したものです。Genie 3は、長時間にわたって世界の詳細を記憶できる画期的なAI技術として注目されていました。ただし、現時点では月額250ドルのAI Ultraプランに加入しているユーザーのみが利用できます。この技術は、ゲーム開発やコンテンツ制作の分野に大きな影響を与える可能性があります。
Project Genieの仕組みと機能
Project Genieは「ワールドモデル」と呼ばれるAI技術を使用しています。ワールドモデルとは、動的な環境をリアルタイムで生成するAIのことです。厳密には3D空間ではなく、ユーザーの操作に反応する動画を生成する仕組みです。例えば、森の中を歩くキャラクターの画像を提供すると、そのキャラクターが森を探索する様子を動画として生成し、WASDキーで移動を制御できるようになります。
システムはまず静止画像を生成します。Googleはこれを「ワールドスケッチング」と呼んでいます。ユーザーは生成された参考画像が気に入らなければ、修正を加えてから世界の生成を開始できます。生成される動画は720pの解像度で、毎秒約24フレームで描画されます。キャラクターを動かすと、Genieが進行方向の景色をほぼリアルタイムで描画していきます。
60秒の探索が終わっても、同じ指示で再度生成できます。生成AIの性質上、毎回少しずつ異なる結果が得られます。Googleはあらかじめ用意された世界も提供しており、これらを新しいキャラクターや視覚スタイルで「リミックス」することも可能です。探索の様子を記録した動画はダウンロードもできます。
背景と経緯
Googleは2025年にGenie 3を発表し、限られた信頼できるテスターにのみ提供していました。Genie 3の最大の特徴は、生成する世界の詳細を長時間記憶できることでした。従来のワールドモデルは数秒程度しか一貫性を保てませんでしたが、Genie 3は数分間にわたって世界の詳細を保持できました。ただし、AI技術の文脈では「長時間」とは数分程度を指します。
Project Genieは、このGenie 3を一般向けに改良したバージョンです。Nano Banana ProやGemini 3といった最新のAIモデルと統合されています。研究段階から実用段階への移行を示す重要なステップと言えます。
AI生成動画の分野では、GoogleのVeoやOpenAIのSoraといった技術が登場していますが、これらは静的な動画を生成するものでした。Project Genieは、ユーザーの操作に反応する点で一歩進んだ技術です。
技術的な詳細と制約
Project Genieの技術的な仕組みは複雑ですが、基本的には予測と生成を組み合わせています。ユーザーがキャラクターを動かすと、AIは次に見えるべき景色を予測し、動画として生成します。これは、事前に作られた3D空間を表示するのではなく、その場で動画を作り出す方式です。
Google VeoやOpenAI Soraを使ったことがある人なら、短い動画クリップを作るだけでも数秒かかることを知っているでしょう。そう考えると、Genieがインタラクティブな体験を実現していることは驚くべきことです。しかし、入力の遅延は避けられません。キーを押してから画面が反応するまでに若干の待ち時間があります。
Googleは物理法則を正確にモデル化できると説明していますが、実際には見た目や動作がおかしい世界が生成されることもあると認めています。例えば、重力が不自然だったり、物体の動きが現実と異なったりする場合があります。
できること・できないこと
Project Genieを使うと、写真や文章の説明から操作可能な世界を作り出すことができます。例えば、「雪山を登るロボット」という文章を入力すれば、雪山の景色の中をロボットが移動する世界が生成されます。また、自分で撮影した公園の写真をアップロードし、その公園を探索できる世界を作ることも可能です。Googleが用意した既存の世界を、異なるキャラクターや色調で作り直すこともできます。
一方で、いくつかの重要な制約があります。最も大きな制約は、各世界を探索できる時間が60秒に限られていることです。60秒が経過すると、新たに生成し直す必要があります。また、Genie 3で実演されていた「プロモータブルイベント」機能は、まだ利用できません。これは、実行中の世界に新しい要素を挿入する機能です。例えば、探索中に突然ドラゴンを出現させるといったことは、現時点ではできません。
コンテンツの制限も変化しています。The Vergeの報道によると、テスト初期には「スーパーマリオ」や「ゼルダの伝説」のような任天堂ゲームの模倣を生成できましたが、テスト終了時にはこれらの指示が「第三者のコンテンツ提供者の利益」を理由にブロックされるようになりました。著作権のある作品の模倣は、今後さらに制限される可能性があります。
私たちへの影響
このニュースは、クリエイターや開発者、そしてAI技術に興味を持つ一般ユーザーに大きな影響を与えます。ゲーム開発者にとっては、プロトタイプの作成や概念の視覚化に役立つツールとなる可能性があります。従来は3Dモデリングソフトで時間をかけて作っていた環境を、数秒で生成できるようになるかもしれません。
短期的には、月額250ドルという価格が大きな障壁となります。これは個人ユーザーにとって非常に高額です。Googleは将来的にアクセスを拡大する計画を示していますが、具体的な時期は明らかにしていません。当面は、予算のある企業や研究機関が主な利用者となるでしょう。
中長期的には、この技術がより手頃な価格で提供されるようになれば、教育やエンターテインメントの分野で新しい可能性が開けます。例えば、歴史の授業で過去の街並みを探索したり、小説の世界を視覚化して体験したりできるようになるかもしれません。また、建築家が設計した建物の内部を、完成前に歩き回って確認することも可能になるでしょう。
ただし、著作権の問題には注意が必要です。既存の作品に似た世界を生成できる能力は、法的な問題を引き起こす可能性があります。Googleがコンテンツ制限を強化している事実は、この技術の普及に伴って規制が厳しくなることを示唆しています。また、60秒という時間制限や入力遅延といった技術的制約が解消されるまでは、実用的な用途は限られるでしょう。
