OpenAIが2022年に海賊版書籍データセットを削除した理由の開示を命じられました。著作権侵害訴訟で故意性が認められれば、1作品あたり最大15万ドルの罰金が科される可能性があります。裁判所は社内弁護士とのやり取りの開示を命令しました。

OpenAI、海賊版書籍データ削除理由の開示命令で窮地に

2025年12月、米国の裁判所がOpenAIに対し、海賊版書籍データセットを削除した理由について、社内弁護士とのすべてのやり取りを開示するよう命じました。この命令は、著作者たちがChatGPTの訓練に自分たちの作品が違法に使用されたと主張する集団訴訟の一環です。問題となっているのは「Books 1」と「Books 2」と呼ばれる2つのデータセットで、これらは2021年に作成され、2022年のChatGPT公開前に削除されました。

OpenAIは当初、データセットが使われなくなったため削除したと説明していました。しかし、その後この説明を撤回し、削除理由はすべて弁護士との秘密特権で保護されるべきだと主張を変更しました。この方針転換が裁判官の疑念を招き、今回の開示命令につながりました。

この問題が重要なのは、OpenAIが著作権侵害を故意に行ったと認定されれば、通常の損害賠償額が大幅に増額される可能性があるためです。米国の著作権法では、故意の侵害と認められた場合、1作品あたり最大15万ドル、日本円で約2,250万円の罰金が科されます。数千冊の書籍が対象となれば、OpenAIは巨額の賠償金を支払うことになるかもしれません。

問題となったデータセットの詳細

「Books 1」と「Books 2」は、OpenAIの元従業員が2021年に作成したデータセットです。これらは、インターネット上から書籍データを収集して作られました。特に問題視されているのは、データの大部分が「Library Genesis」、通称LibGenと呼ばれる海賊版図書館サイトから取得されたという点です。

LibGenとは、著作権で保護された書籍を無断で公開している違法サイトのことです。世界中の書籍が無料でダウンロードできるため、出版社や著作者から強く批判されています。OpenAIがこのサイトからデータを取得したことは、著作権侵害の意図があったのではないかという疑念を生んでいます。

OpenAIは、これらのデータセットは2021年中に使用されなくなり、そのため削除したと説明しています。しかし、著作者側は、法的リスクを認識したために削除したのではないかと疑っています。実際、OpenAI社内のSlackチャンネルは当初「excise-libgen」、つまり「LibGenを取り除く」という名前でしたが、後に「project-clear」に変更されました。

OpenAIの主張が二転三転した経緯

この訴訟で最も問題となっているのは、OpenAIの説明が一貫していない点です。当初OpenAIは、データセットを削除した理由の一つとして「使用しなくなったこと」を挙げていました。裁判所が著作者側の要請を認め、この「不使用」に関する社内メッセージの開示を命じると、OpenAIは突然主張を変更しました。

OpenAIは、削除理由のすべて、「不使用」も含めて、弁護士との秘密特権で保護されるべきだと主張し始めたのです。弁護士との秘密特権とは、依頼者と弁護士の間のやり取りは秘密として保護され、裁判でも開示する必要がないという法的原則です。しかし、裁判官はこの主張を認めませんでした。

オナ・ワン連邦地裁判事は、OpenAIが「不使用」を理由として述べながら、同時にそれを特権で保護されるべき理由だと主張するのは矛盾していると指摘しました。判事は「OpenAIは理由を述べておきながら、後になってその理由は特権で保護されると主張して証拠開示を避けることはできない」と述べています。

さらに判事は、削除理由のすべてが特権で保護されるというOpenAIの主張は「信じがたい」と結論づけました。その結果、12月8日までに幅広い社内メッセージを提出し、12月19日までに社内弁護士を証言のために出席させるよう命じられました。

故意の著作権侵害と罰金の関係

この訴訟で著作者側が証明しようとしているのは、OpenAIが故意に著作権を侵害したということです。故意の侵害とは、侵害行為を実際に認識していたか、著作権者の権利を無謀に無視したか、意図的に見て見ぬふりをしたことを意味します。

米国の著作権法では、通常の著作権侵害の場合、1作品あたり750ドルから3万ドルの法定損害賠償が認められます。しかし、故意の侵害と認定されれば、この金額は1作品あたり最大15万ドル、日本円で約2,250万円まで増額される可能性があります。

著作者側の弁護士クリストファー・ヤング氏は、法廷記録の中で、OpenAIが法的リスクを理由に後のモデルでこれらのデータセットを使わないと決定した証拠が見つかれば、OpenAIは困難な立場に立たされると指摘しています。また、OpenAIが別の名前でこれらのデータセットを使い続けている可能性も示唆しています。

裁判官が指摘したOpenAIの矛盾

ワン判事は、OpenAIが最近の提出書類で「善意」という言葉を巧妙に削除していることも問題視しました。OpenAIは善意で行動したと主張し続けながら、「無実」「合理的に信じた」「善意」といった重要な言葉を削除していたのです。

判事は「陪審員はOpenAIの善意とされるものの根拠を知る権利がある」と述べ、社内メッセージの開示が裁判所の審査に不可欠であると判断しました。

さらに判事は、OpenAIが別の訴訟であるAnthropic社の判決を誤って引用していることも指摘しました。OpenAIは、ウィリアム・アルサップ判事が「海賊版書籍をダウンロードすることは、その後AI訓練に使用する限り合法である」と判断したと主張していました。

しかし実際には、アルサップ判事は正反対のことを述べていました。判事は「合法的に購入またはアクセスできた書籍を海賊版サイトからダウンロードすることが、その後の公正使用に合理的に必要だったと説明できる侵害者はいないだろう」と疑問を呈していたのです。

ワン判事は、OpenAIが書籍データを海賊版サイトから取得し、その後削除したという行為は、まさにアルサップ判事が禁じた行為に該当すると指摘しました。アルサップ判事の命令を引用し、「そのような海賊行為は、たとえ海賊版コピーが変革的使用のためにすぐに使われ、すぐに廃棄されたとしても、本質的に、取り返しのつかない侵害である」と強調しました。

Anthropic元CEOの証言が鍵を握る可能性

著作者側は、OpenAIの特権で保護されたコミュニケーションを入手できれば、訴訟で有利になると考えています。特に重要なのが、Anthropic社のCEOであるダリオ・アモデイ氏の証言です。

アモデイ氏は、問題のデータセットが作成された当時、OpenAIの従業員でした。著作者側は、アモデイ氏がこれらの論争の的となったデータセットを作成し、その削除に関する情報も持っていると主張しています。

OpenAIはアモデイ氏の証言を阻止しようとしましたが、2025年3月に裁判官は著作者側の要請を認め、アモデイ氏に証言を強制しました。アモデイ氏の証言が爆弾発言となるかどうかはまだわかりませんが、OpenAIにとって不利な情報が明らかになる可能性があります。

OpenAIが直面する法的ジレンマ

ワン判事は、OpenAIが直面している「根本的な矛盾」を指摘しました。OpenAIは弁護士の助言に基づいて善意で行動したと主張する一方で、弁護士との秘密特権を理由に自分たちの心理状態についての調査を阻止しようとしています。

この矛盾により、OpenAIは故意の侵害という主張に対抗することが困難になる可能性があります。善意を主張するなら、その根拠となる弁護士とのやり取りを開示する必要があるというのが判事の判断です。

OpenAIは判決に不服として上訴する意向を示していますが、時間は限られています。12月8日までに社内メッセージを提出し、12月19日までに社内弁護士を証言のために出席させなければなりません。

AI業界全体への影響

この訴訟の結果は、OpenAIだけでなく、AI業界全体に大きな影響を与える可能性があります。多くのAI企業が、インターネット上から大量のデータを収集してモデルを訓練しています。その中には、著作権で保護された作品も含まれている可能性が高いのです。

もしOpenAIが故意の著作権侵害で敗訴すれば、他のAI企業も同様の訴訟に直面するリスクが高まります。AI企業は、訓練データの出所をより慎重に管理し、著作権者との適切なライセンス契約を結ぶ必要性に迫られるでしょう。

一方で、著作者や出版社にとっては、自分たちの作品が無断で使用されることを防ぐ手段が強化される可能性があります。ただし、AI技術の発展と著作権保護のバランスをどう取るかという難しい問題は残ります。

短期的には、OpenAIは巨額の賠償金を支払うリスクに直面しています。中長期的には、AI業界全体でデータ収集の方法が見直され、より透明性の高い、著作権を尊重した訓練データの取得方法が確立されていくと予想されます。

ただし、この訴訟の最終的な結果が出るまでには、まだ時間がかかるでしょう。上訴の可能性もあり、最終的な判断が確定するまでには数年かかる可能性もあります。AI技術の利用者としては、この問題の行方を注視しつつ、著作権に配慮したAIサービスの利用を心がけることが重要です。

出典：OpenAI desperate to avoid explaining why it deleted pirated book datasets（arstechnica.com）