AIが自ら問題を作り学習する新手法、人間を超える可能性も

清華大学などの研究チームが、AIが自ら問題を作り自ら解く学習システム「Absolute Zero Reasoner」を開発。人間の教師データなしに推論能力が向上。超知能への道を開く可能性。

AIが自ら問題を作り学習する新手法、人間を超える可能性も

2025年、中国の清華大学、北京通用人工智能研究院(BIGAI)、ペンシルベニア州立大学の共同研究チームが、AIが自分自身に質問を投げかけて学習する新しいシステムを発表しました。このシステムは「Absolute Zero Reasoner(AZR)」と呼ばれ、人間が用意した教材なしに、AIが自らプログラミング問題を作成し、それを解くことで能力を高めます。従来のAIは人間の作った例題や指示に頼って学習していましたが、この手法は人間が自ら疑問を持ち、答えを探す学習プロセスに近いものです。実験では、オープンソースの言語モデル「Qwen」の推論能力が大幅に向上し、人間が厳選したデータで訓練されたモデルを上回る結果も出ました。この技術は、AIが人間の教師を超える「超知能」への道を開く可能性があると研究者は指摘しています。

Absolute Zero Reasonerの仕組み

Absolute Zero Reasonerは、3つのステップでAIの学習を進めます。まず、大規模言語モデルを使って、難しいけれど解決可能なPythonプログラミング問題を自動生成します。次に、同じモデルがその問題を解こうと試みます。そして最後に、作成したコードを実際に実行して正しく動くかを確認し、成功と失敗の結果を元のモデルにフィードバックします。

この繰り返しにより、モデルは問題を作る能力と解く能力の両方を同時に向上させていきます。研究チームは、70億パラメータと140億パラメータのQwenモデルでこの手法を試し、どちらも大幅な性能向上を確認しました。特に注目すべきは、人間が慎重に選んだデータで訓練されたモデルよりも優れた結果を出したことです。

背景と経緯

現在のAIモデルのほとんどは、人間が作った大量のテキストや画像を学習するか、人間が設定した課題を解くことで能力を獲得しています。いわば「模倣」による学習です。しかし、この方法には限界があります。良質な学習データが不足してきており、データの収集コストも高騰しています。

「セルフプレイ」と呼ばれる、AIが自分自身と対戦しながら学習する考え方自体は新しいものではありません。AI研究の先駆者であるユルゲン・シュミットフーバー氏や、フランスのInriaに所属するピエール=イヴ・ウードイエ氏らが以前から探求してきました。しかし、実用的なシステムとして実現し、大規模言語モデルの推論能力向上に成功したのは今回が初めてです。

技術的な詳細

このシステムの鍵は、問題の難易度が自動的に調整される点にあります。研究チームのZilong Zheng氏によれば、「モデルが強くなるにつれて、難易度レベルも成長する」といいます。つまり、AIが賢くなればなるほど、自分に適した難しい問題を作れるようになるのです。

プロジェクトの発案者であるAndrew Zhao氏は、この学習方法が人間の学習プロセスに似ていると説明します。「最初は親や教師を真似しますが、やがて自分自身で質問を立てるようになります。そして最終的には、学校で教えてくれた人を超えることができるのです」。

現在のシステムは、正解が明確に判定できる数学やプログラミングの問題に限定されています。コードを実行すれば、正しく動くかどうかがすぐに分かるからです。この「自動検証」の仕組みが、人間の介入なしに学習を進める上で重要な役割を果たしています。

できること・できないこと

現時点でAbsolute Zero Reasonerは、プログラミングや数学といった、答えの正誤を自動的に判定できる分野で効果を発揮します。例えば、複雑なアルゴリズムの問題を自ら作成し、それを解くことでコーディング能力を高めることができます。実験では、70億パラメータのモデルでも、人間が選んだデータで訓練された一部のモデルを上回る性能を示しました。

一方で、正解が一つに定まらない問題や、判定が難しい課題にはまだ対応できません。例えば、ウェブブラウジングやオフィス業務といった「エージェント型AI」のタスクでは、行動が正しいかどうかの判断が複雑です。研究チームは、将来的にはAIモデル自身が別のAIエージェントの行動を評価する方法を検討していますが、実用化にはさらなる研究が必要です。

業界での広がり

Absolute Zeroのアプローチは、すでに大手AI研究機関でも注目を集めています。Salesforce、スタンフォード大学、ノースカロライナ大学チャペルヒル校の共同プロジェクト「Agent0」では、ソフトウェアツールを使うAIエージェントがセルフプレイで自己改善する仕組みを開発しています。

また、Meta、イリノイ大学、カーネギーメロン大学の研究者たちも、ソフトウェア工学の分野で同様のセルフプレイ手法を使ったシステムを発表しました。論文の著者らは、この研究が「超知能ソフトウェアエージェントのための訓練パラダイムへの第一歩」だと述べています。

私たちへの影響

このニュースは、AI技術の開発者や利用者、そしてAIの将来に関心を持つすべての人に重要な意味を持ちます。従来のAI開発では、大量の高品質なデータを集めることが最大の課題でした。しかし、AIが自ら学習できるようになれば、データ不足の問題を解決できる可能性があります。

短期的には、プログラミング支援ツールやコード生成AIの性能が向上するでしょう。開発者は、より複雑な問題を解決できるAIアシスタントを利用できるようになります。中長期的には、この技術が他の分野にも応用され、AIが人間の教師なしに専門知識を獲得する時代が来るかもしれません。

ただし、研究者が指摘する「超知能」の可能性については、慎重な議論が必要です。AIが人間を超える能力を持つようになった場合、その制御や安全性をどう確保するかという課題が残ります。2025年は、AIの新しい学習方法が業界の大きなテーマになると予想されており、今後の展開に注目が集まっています。

出典:AI Models Are Starting to Learn by Asking Themselves Questions(www.wired.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です