Metaが動画から物理法則を学習するAIモデル「V-JEPA」を開発。赤ちゃんのように物体の永続性や重力を理解し、物理的に不可能な現象に「驚き」を示す。自動運転車やロボット開発への応用が期待される。
Meta開発のAI「V-JEPA」、動画視聴だけで物理法則を理解
Meta社は2024年、動画を見るだけで現実世界の物理法則を理解できるAIモデル「V-JEPA」を発表しました。V-JEPAとは、Video Joint Embedding Predictive Architectureの略で、動画から物体の動きや重力などの物理的な性質を学習するシステムのことです。このAIは、赤ちゃんが成長過程で物の永続性を学ぶように、観察を通じて世界の仕組みを理解します。例えば、ボールが物陰に隠れても消えたわけではないという「物体の永続性」を、誰も教えなくても自然に学習できるのです。
従来のAI画像認識システムは、動画の全てのピクセル(画素)を同じ重要度で処理していました。そのため、道路の車を認識する際に、重要な信号機の色よりも、背景の木の葉の揺れに注目してしまうといった問題がありました。V-JEPAは、こうした不要な情報を捨て、本質的な情報だけを抽出する新しい仕組みを採用しています。
物理法則の理解度を測るテスト「IntPhys」では、V-JEPAは約98パーセントの精度で物理的に可能な現象と不可能な現象を見分けることができました。これは、自動運転車やロボットが現実世界で安全に動作するために必要な「物理的直感」を、AIが獲得できることを示しています。この技術は、ロボット工学や自動運転技術の発展に大きく貢献すると期待されています。
V-JEPAの仕組みと従来技術との違い
V-JEPAの最大の特徴は、「潜在表現」と呼ばれる抽象的な情報処理方法にあります。潜在表現とは、データの本質的な特徴だけを数値化したもののことです。例えば、円柱の画像を処理する場合、従来のシステムは何千ものピクセル情報をそのまま扱いますが、V-JEPAは「高さ」「幅」「向き」「位置」といった数個の重要な数値だけに変換します。
V-JEPAは3つの主要部分で構成されています。エンコーダー1、エンコーダー2、そして予測器です。学習プロセスでは、まず動画の一部を隠した状態でエンコーダー1に入力し、潜在表現に変換します。同時に、隠していない完全な動画をエンコーダー2に入力し、別の潜在表現を作ります。そして予測器が、隠された部分の潜在表現を予測するのです。
従来のピクセル空間で動作するシステムは、隠されたピクセルの値そのものを予測しようとしていました。しかしV-JEPAは、ピクセルレベルではなく、より高次の抽象的な情報レベルで予測を行います。これにより、街路樹の葉の動きのような不要な詳細を無視し、信号機の色や車の位置といった重要な情報に集中できるのです。Meta社の研究科学者クエンティン・ガリード氏は「不要な情報を捨てることは非常に重要で、V-JEPAはそれを効率的に行うことを目指しています」と説明しています。
赤ちゃんのような「驚き」を示すAI
2024年2月、V-JEPA開発チームは、このシステムが現実世界の直感的な物理特性をどれだけ理解できるかを報告しました。物体の永続性、形や色の一貫性、重力や衝突の効果といった性質についてテストしたのです。IntPhysと呼ばれるテストでは、AIモデルに動画を見せて、その中で起きている現象が物理的に妥当か不可能かを判断させます。V-JEPAは約98パーセントの精度で正解しました。一方、ピクセル空間で予測する従来の有名なモデルは、ほぼ偶然と同じ程度の精度しか出せませんでした。
さらに興味深いのは、V-JEPAが示す「驚き」の反応です。研究チームは、V-JEPAの予測と実際の観察結果の差を数学的に計算することで、モデルの「驚き」を定量化しました。例えば、ボールが物体の後ろに転がって一時的に見えなくなった後、本来なら反対側から現れるはずなのに現れない場合、V-JEPAの予測誤差は急上昇しました。これは、生後6ヶ月から1歳の赤ちゃんが物体の永続性を理解し、期待に反する現象に驚く反応と似ています。
アムステルダム大学の認知科学者ミカ・ヘイルブロン氏は「発達心理学の研究から、赤ちゃんはこうした直感的な物理法則を学ぶのに多くの経験を必要としないことが分かっています。V-JEPAがそもそもこれを学習可能であることを示し、生まれつきの前提知識を持つ必要がないことを証明したのは説得力があります」と評価しています。
背景と開発の経緯
V-JEPAの開発は、自動運転車の開発者たちが直面してきた課題から始まりました。AIシステムに見たものを確実に理解させることは、想像以上に困難だったのです。動画の内容を分類したり、前方の車の輪郭を識別したりするために設計された従来のシステムは、動画の全てのピクセルを同等に重要なものとして扱っていました。
ブラウン大学のコンピューター科学者ランドール・バレストリエロ氏は「画像や動画を扱う場合、ピクセル空間で作業したくありません。モデル化したくない細部が多すぎるからです」と指摘しています。この問題を解決するため、ニューヨーク大学のコンピューター科学者でMetaのAI研究ディレクターでもあるヤン・ルカン氏が、2022年に静止画像で動作するJEPAという前身モデルを開発しました。そして2024年、動画に対応したV-JEPAが発表されたのです。
2024年6月には、さらに進化した次世代モデル「V-JEPA 2」が公開されました。このモデルは12億個のパラメータを持ち、2200万本の動画で事前学習されています。研究チームはロボット工学への応用も開始し、ロボットが物理的な環境を理解して動作を計画できるようにする研究を進めています。
できること・できないこと
V-JEPAにより、AIは動画を見るだけで物理法則の基本的な理解を獲得できるようになりました。例えば、物体が障害物の後ろに隠れても消えたわけではないこと、ボールが転がれば重力で下に落ちること、物体同士が衝突すれば互いに影響を及ぼすことなどを学習できます。この技術は、自動運転車が歩行者や他の車の動きを予測したり、ロボットが物を掴んで移動させる際に物理的な制約を考慮したりする場面で活用できます。
また、V-JEPAは少量の人間によるラベル付けデータで、様々な具体的タスクに適応できます。動画の内容分類や動作認識といった異なる目的に、同じ基本モデルを再利用できるのです。これは、タスクごとに一から学習させる従来の方法と比べて、大幅に効率的です。
一方で、まだ改善の余地もあります。ユニバーシティ・カレッジ・ロンドンの計算神経科学者カール・フリストン氏は、V-JEPAが「私たちの脳が世界を学習しモデル化する方法」を模倣する正しい方向性にあると評価しつつも、「不確実性の適切なエンコーディングが欠けている」と指摘しています。例えば、過去のフレームの情報だけでは未来のフレームを正確に予測できない場合、その予測には不確実性があるはずですが、V-JEPAはこの不確実性を定量化していません。今後の研究では、こうした不確実性の表現方法が課題となるでしょう。
私たちへの影響
このニュースは、自動運転車やロボット技術の開発に携わる技術者、そしてこれらの技術の恩恵を受ける私たち一般消費者に大きな影響を与えます。V-JEPAのような物理的直感を持つAIは、より安全で信頼性の高い自動運転システムの実現に貢献するでしょう。
短期的な影響については、ロボット工学の分野で具体的な応用が始まっています。工場や倉庫で働くロボットが、物理環境をより深く理解して動作を計画できるようになれば、作業効率と安全性が向上します。また、自動運転車の開発においても、車両が周囲の物体の動きをより正確に予測できるようになり、事故のリスクが減少する可能性があります。
中長期的な影響としては、家庭用ロボットや介護ロボットなど、人間の生活空間で動作するロボットの実用化が加速すると予測されます。物理法則を直感的に理解するAIは、予期しない状況にも柔軟に対応できるため、より複雑な環境での作業が可能になるでしょう。さらに、この技術は仮想現実やゲーム開発にも応用され、よりリアルな物理シミュレーションを実現するかもしれません。
ただし、この技術が実際の製品やサービスとして私たちの手元に届くまでには、まだ時間がかかります。不確実性の表現や、より複雑な物理現象の理解など、解決すべき技術的課題が残っているからです。また、AIが物理世界を理解する能力が向上しても、倫理的な判断や人間との協調といった別の課題も存在します。技術の進歩を期待しつつも、慎重な開発と検証が必要でしょう。
