AlphaGo開発者が新会社設立、大規模言語モデルとは異なる手法で超知能AI開発へ

AlphaGo開発者のデビッド・シルバー氏が新会社Ineffable Intelligenceを設立し、11億ドルを調達。大規模言語モデルではなく強化学習で超知能を目指す。人間データに依存しない自己学習型AIの実現を目指す。

AlphaGo開発者が新会社設立、大規模言語モデルとは異なる手法で超知能AI開発へ

2025年、囲碁AIプログラム「AlphaGo」の開発者として知られるデビッド・シルバー氏が、新会社Ineffable Intelligenceを設立しました。同社は11億ドル(約1600億円)のシード資金を調達し、企業価値は51億ドル(約7400億円)と評価されています。シルバー氏は、現在主流となっている大規模言語モデル(LLMとは、ChatGPTのように大量の文章データから学習するAIのことです)とは異なるアプローチで、超知能AIの開発を目指すと発表しました。同氏は強化学習という手法に注目しています。強化学習とは、AIが試行錯誤を繰り返しながら自ら学習する方法です。人間が作ったデータに頼らず、AI自身が新しい知識を生み出せる「スーパーラーナー」の実現を目指します。この発表は、AI開発の方向性について重要な問題提起となっています。

AlphaGoの成功と新たな挑戦

デビッド・シルバー氏は2016年、Google DeepMindで開発したAlphaGoによって、世界に初めて超知能の可能性を示しました。AlphaGoは囲碁という複雑なゲームを、単なる模倣を超えた独自の方法で習得しました。この成果は、AIが人間の知識を超える可能性を証明した歴史的な出来事でした。シルバー氏はその後Google DeepMindを離れ、新会社Ineffable Intelligenceを設立しました。同社には、Google DeepMindなど最先端AI研究所から優秀な研究者が集まっています。シルバー氏は「超知能との最初の接触を実現することが私たちの使命です」と語ります。

大規模言語モデルへの疑問

現在、多くのAI企業は大規模言語モデルを使って超知能を実現しようとしています。しかし、シルバー氏はこのアプローチには限界があると考えています。大規模言語モデルは、人間が書いた文章から学習します。つまり、人間の知識の範囲内でしか動作できません。シルバー氏は「人間のデータは化石燃料のようなものです。素晴らしい近道を提供してくれましたが、限りがあります」と説明します。一方、自己学習するシステムは「再生可能エネルギーのようなもので、無限に学び続けられます」と述べています。

シルバー氏は思考実験で説明します。もし大規模言語モデルを、地球が平らだと信じられていた時代に戻して使ったとします。そのモデルは、現実世界と相互作用できないため、地球が平らだという誤った信念を持ち続けるでしょう。コードを改善しても、この根本的な問題は解決しません。しかし、自分で世界について学べるAIシステムなら、独自の科学的発見ができる可能性があります。シルバー氏は「ダーウィン以前の生物学のようなものです。統一的な理解がなかった時代から、進化論という画期的な理論が生まれたように、AIにも新しいパラダイムが必要です」と語ります。

強化学習という技術

強化学習とは、AIが試行錯誤を通じて学習する手法です。例えば、ゲームをプレイするAIは、何度も失敗しながら、どの行動が良い結果につながるかを学びます。人間の子どもが自転車の乗り方を練習するのと似ています。この考え方は、コンピュータ科学の初期、アラン・チューリングの時代から存在していました。シルバー氏の師であるリッチ・サットン氏とアンドリュー・バルト氏は、初期の強化学習アルゴリズムを開発した功績で、2025年にチューリング賞を受賞しました。

強化学習は、現在のAIシステムでも重要な役割を果たしています。ChatGPTのようなチャットボットは、人間のフィードバックを使った強化学習によって、より自然な会話ができるようになりました。最近では、数学やプログラミングなど複雑な問題を解く能力も、強化学習によって向上しています。しかし、シルバー氏は、強化学習の可能性はまだ十分に活用されていないと考えています。同氏は「強化学習に100パーセント集中するエリートAI研究所が必要です。大規模言語モデルに特化した企業の片隅ではなく」と強調します。

シミュレーション環境での学習

Ineffable Intelligenceの大きな課題は、囲碁のような限定された世界から、現実世界の複雑さへどう対応するかです。シルバー氏は、AIエージェントをシミュレーション環境の中に配置することで、この問題を解決できると考えています。具体的なシミュレーションの内容については明かしていませんが、この環境でAIエージェントは目標達成の方法を学び、互いに協力する方法を習得します。シミュレーション内で学習させることで、AIがどのような行動パターンを示すか観察できます。これは安全性の観点からも重要です。

投資家のラヴィ・マートレ氏は「シルバー氏は世界クラスの研究者です。彼のキャリアは、人間の事前知識なしに知能を拡張できるという一貫した主張の証明です」と評価します。同氏はシルバー氏に安全性について質問したところ、人間の行動から学ぶのではなく、シミュレーション環境で学習させる方が、人間の価値観に沿ったAIを作りやすいという回答を得ました。シルバー氏は「私たちが望むものと調和する、高度に知的なシステムの構築に非常に注力しています」とマートレ氏は説明します。

できること・できないこと

この技術により、人間のデータに依存せず、AI自身が新しい知識を生み出すことが可能になります。例えば、新しい科学理論や技術、統治システム、経済モデルなどを、AIが独自に発見できる可能性があります。シミュレーション環境内で、複数のAIエージェントが協力して複雑な問題を解決する方法を学習することもできます。従来の大規模言語モデルでは、人間が既に知っている知識の範囲内でしか動作できませんでしたが、この新しいアプローチでは、その制約を超えられる可能性があります。

一方で、現実世界の複雑さをどこまでシミュレーションで再現できるかという課題があります。囲碁のような明確なルールがあるゲームと異なり、現実世界には無数の変数と予測不可能な要素が存在します。また、AIが最適解として導き出した答えが、必ずしも人間の価値観や利益と一致するとは限りません。シルバー氏はシミュレーション環境での観察によってこの問題に対処できると考えていますが、実際の効果はまだ証明されていません。技術の実用化には、さらなる研究開発と検証が必要でしょう。

私たちへの影響

このニュースは、AI技術の将来に関心を持つすべての人に影響を与えます。シルバー氏のアプローチが成功すれば、AIの能力は現在の大規模言語モデルを大きく超える可能性があります。科学研究や技術開発の分野では、人間が思いつかなかった新しい発見や発明が生まれるかもしれません。医療、環境問題、エネルギーなど、人類が直面する重要な課題の解決に貢献する可能性もあります。

短期的な影響については、AI業界の研究開発の方向性に変化が生じる可能性があります。現在は大規模言語モデルへの投資が主流ですが、強化学習への関心が再び高まるかもしれません。中長期的な影響としては、人間の知識を超えるAIが実現した場合、社会のあり方そのものが変わる可能性があります。新しい科学理論や技術が次々と生まれ、産業構造や労働市場に大きな変化をもたらすでしょう。

ただし、超知能AIの開発には大きなリスクも伴います。AIが人間の価値観と異なる判断をした場合、予期しない問題が発生する可能性があります。シルバー氏は、会社から得る利益をすべて慈善団体に寄付すると表明しており、「超知能に焦点を当てた会社を作ることは大きな責任です。これは人類の利益のために行われるべきことです」と述べています。この技術の発展を見守りながら、安全性と倫理的な側面についても注意深く考える必要があるでしょう。

出典:The Man Behind AlphaGo Thinks AI Is Taking the Wrong Path(www.wired.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です