スタンフォード大学とイェール大学の研究チームが、OpenAIやGoogleなどの主要AI企業の大規模言語モデルが、学習データから小説をほぼ完全に再現できることを発見しました。この発見は、AI企業が著作権訴訟で主張してきた「AIは著作物のコピーを保存しない」という主張を揺るがす可能性があります。医療や教育分野でのプライバシー問題にも影響が及ぶ恐れがあります。

主要AIモデルが小説をほぼ完全再現、著作権訴訟に影響の可能性

2026年2月、スタンフォード大学とイェール大学の研究チームが、世界トップクラスのAIモデルが学習データから小説をほぼ完全に再現できることを明らかにしました。この研究では、OpenAI、Google、Meta、Anthropic、xAIの大規模言語モデル（LLMとは、大量のテキストデータから言語のパターンを学習し、文章を生成するAIシステムのことです）が、予想以上に多くの学習データを記憶していることが判明しました。

研究チームは、特定の質問方法を使うことで、「ハリー・ポッターと賢者の石」の76.8%をGemini 2.5から、70.3%をGrok 3から高精度で抽出することに成功しました。さらに、AnthropicのClaude 3.7 Sonnetからは、セーフガードを回避する手法を使って、小説をほぼ完全に再現できたのです。

この発見は、AI業界が世界中で直面している数十件の著作権訴訟に大きな影響を与える可能性があります。AI企業は、自社のシステムが著作物から「学習」するだけで、コピーを保存しないと主張してきました。しかし、今回の研究結果は、この主張の根幹を揺るがすものです。インペリアル・カレッジ・ロンドンのイヴ＝アレクサンドル・ド・モンジョワ教授は「記憶化が以前考えられていたよりも大きな問題であることを示す証拠が増えている」と指摘しています。

この問題は、AI開発の方法やコストだけでなく、医療や教育など他の分野でのプライバシー保護にも深刻な影響を及ぼす可能性があります。

研究で明らかになった記憶化の実態

スタンフォード大学とイェール大学の研究チームは、主要なAI企業の大規模言語モデルに対して、戦略的な質問方法を用いた実験を行いました。その結果、「ゲーム・オブ・スローンズ」「ハンガー・ゲーム」「ホビット」など13冊の書籍から、数千語にわたる文章を生成させることに成功しました。

具体的には、書籍の文章の続きを完成させるよう求めることで、Gemini 2.5は「ハリー・ポッターと賢者の石」の76.8%を高精度で再現しました。Grok 3は70.3%を生成しました。さらに注目すべきは、AnthropicのClaude 3.7 Sonnetから、ジェイルブレイク（セーフガードを回避する手法）を使って、小説をほぼ完全に「逐語的に近い形」で抽出できたことです。

この研究は、昨年発表された別の研究を発展させたものです。昨年の研究では、MetaのLlamaのような「オープン」モデルが、学習データ内の特定の書籍の大部分を記憶していることが判明していました。しかし、より多くのセーフガードを持つ「クローズド」モデルでも同様の大規模な記憶化が起こるかどうかは不明でした。

イェール大学の研究者A・フェダー・クーパー氏は「セーフガードがあるにもかかわらず、テキスト全体を記憶できることは驚きだった」と述べています。研究者たちは、なぜLLMが学習データに含まれる内容を記憶するのか、また生成される出力にどの程度の学習データが含まれているのかについては、まだ解明できていません。

AI企業の主張との矛盾

AI企業は長年、モデルが学習データを記憶することはないと主張してきました。2023年、Googleは米国著作権局への書簡で「モデル自体には、テキスト、画像、その他の形式を問わず、学習データのコピーは存在しない」と述べています。

AI業界はまた、著作権のある書籍でモデルを学習させることは「フェアユース」（公正使用）であると主張しています。この主張の根拠は、技術が元の作品を意味のある新しいものに変換するというものです。フェアユースとは、著作権法で認められた、特定の条件下で著作物を許可なく使用できる例外規定のことです。例えば、批評や研究目的での引用などが該当します。

しかし、今回の研究結果は、この主張に疑問を投げかけています。法律事務所Pinsent Masonsのサイリーズ・ウィン・デイヴィス弁護士は「この研究結果は、AIモデルが著作物を保存または複製しないと主張する人々にとって課題となる可能性がある」と指摘しています。

Anthropicは、研究で使用されたジェイルブレイク技術は通常のユーザーには実用的でなく、テキストを抽出するよりもコンテンツを購入する方が簡単だと述べています。同社はまた、モデルは特定のデータセットのコピーを保存せず、学習データ内の単語や文字列間のパターンと関係性から学習すると説明しています。xAI、OpenAI、Googleはコメント要請に応じませんでした。

著作権訴訟への影響

AIモデルが学習データを記憶するかどうかは、最近の著作権をめぐる法的闘争において重要な要素となっています。米国の裁判所は昨年、Anthropicが一部の著作権コンテンツでLLMを学習させたことは「変換的」とみなされ、フェアユースと判断される可能性があるとしました。

しかし、同じ裁判所は、海賊版作品を保存することは「本質的に、取り返しのつかない侵害行為」であると判断しました。この判決により、Anthropicは訴訟を解決するために15億ドル（約2250億円）を支払うことになりました。この金額は、AI業界における著作権問題の深刻さを示しています。

ドイツでは、2024年11月の判決で、OpenAIのモデルが歌詞を記憶していたため著作権を侵害したと認定されました。この訴訟は、作曲家、作詞家、出版社を代表するGEMAという団体が提起したもので、EU域内での画期的な判決とみなされています。

法律事務所Husch Blackwellのルディ・テルシャー弁護士は、ジェイルブレイクなしで書籍全体を再現することは「明らかに著作権侵害」だと述べています。しかし「これが十分に頻繁に起こっているかどうか、つまりAIモデルが侵害に対して代位責任を負う可能性があるかどうかが問題だ」と付け加えています。代位責任とは、直接的な侵害行為を行っていなくても、侵害を可能にした者が負う法的責任のことです。

技術的な背景と記憶化のメカニズム

大規模言語モデルは、インターネット上の膨大なテキストデータを学習して構築されます。学習プロセスでは、モデルは単語や文章のパターンを統計的に分析し、次に来る単語を予測する能力を獲得します。例えば、「おはよう」の後には「ございます」が来る確率が高い、といった具合です。

従来の理解では、モデルは元のテキストそのものではなく、言語の一般的なパターンのみを学習すると考えられていました。しかし、今回の研究は、モデルが特定のテキストを詳細に記憶している可能性を示しています。これは、人間が何度も読んだ本の一節を暗記してしまうのに似ています。

研究者たちは、なぜこの記憶化が起こるのかをまだ完全には理解していません。可能性として考えられるのは、学習データ内で同じテキストが複数回出現した場合、モデルがそのパターンを強く学習してしまうことです。また、特定の文章構造や表現が、モデルのニューラルネットワーク内で強く結びついてしまう可能性もあります。

インペリアル・カレッジ・ロンドンのド・モンジョワ教授は、AI企業が学習データの抽出を防ぐためのセーフガードを設置している事実自体が、企業がこの問題を認識していることを示していると指摘しています。

できること・できないこと

今回の研究により、適切な質問方法を用いれば、主要なAIモデルから学習データに含まれる書籍の大部分を抽出できることが明らかになりました。例えば、書籍の一文を提示してその続きを求めることで、数千語にわたる元のテキストを再現させることが可能です。特にGemini 2.5やGrok 3のようなモデルでは、小説の70%以上を高精度で生成できました。

ジェイルブレイクと呼ばれる、モデルのセーフガードを回避する技術を使えば、さらに完全な再現が可能になります。Claude 3.7 Sonnetからは、小説をほぼ完全に逐語的に抽出することに成功しています。これは、モデルが元のテキストを詳細に記憶していることを示しています。

一方で、通常のユーザーがこのような抽出を行うことは困難です。Anthropicが指摘するように、ジェイルブレイク技術は専門的な知識を必要とし、実用的ではありません。また、すべての書籍やテキストが同じように記憶されているわけではなく、どのような条件で記憶化が起こるのかはまだ解明されていません。研究者たちは、学習データ全体のうちどの程度が出力に現れるのかについても、まだ明確な答えを持っていません。

現時点では、AI企業が設置しているセーフガードにより、一般ユーザーが意図せず著作権侵害となるような出力を得ることは比較的少ないと考えられます。しかし、技術の進歩とともに、この状況は変化する可能性があります。

私たちへの影響

このニュースは、AI技術を利用するすべての人々、特に創作活動に関わる人々や企業に重要な影響を与えます。作家、出版社、コンテンツ制作者にとっては、自分の作品がAIモデルによって無断で再現される可能性があることを意味します。これは、著作権保護と収益確保の観点から深刻な問題です。

短期的な影響としては、AI企業に対する著作権訴訟がさらに増加する可能性があります。すでに世界中で数十件の訴訟が進行中ですが、今回の研究結果は原告側の主張を強化する証拠となるでしょう。Anthropicが15億ドルの和解金を支払った事例は、今後の訴訟における賠償額の目安となる可能性があります。

中長期的な影響としては、AI企業が学習データの選択や管理方法を見直す必要が出てくるでしょう。シカゴ大学のベン・ジャオ教授が指摘するように、そもそも最先端のモデルを作るために著作権のあるコンテンツを使用する必要があるのかという根本的な問いが投げかけられています。これにより、AI開発のコストが増加したり、開発手法が変更されたりする可能性があります。

ただし、この問題は著作権だけにとどまりません。医療や教育分野でAIが使用される場合、学習データに含まれる個人情報や機密情報が出力に現れる可能性があります。例えば、医療記録で学習したモデルが患者の個人情報を漏洩したり、教育データから生徒の成績や評価が抽出されたりする恐れがあります。これは、プライバシー保護の観点から極めて深刻な問題です。

AI技術を利用する際には、生成された内容が既存の著作物を侵害していないか注意を払う必要があります。また、機密情報を扱う組織は、AIモデルの学習データに何が含まれているか、どのような情報が漏洩する可能性があるかを慎重に評価すべきでしょう。法的な規制や業界標準が整備されるまでには時間がかかると予想されますが、この問題への認識と対応は今後ますます重要になっていくと考えられます。

出典：AIs can generate near-verbatim copies of novels from training data（arstechnica.com）