Microsoftが2024年11月に公開したAI開発ガイドのブログ記事を削除。ハリー・ポッターの海賊版書籍でAIモデルを訓練する方法を紹介していた。著作権侵害を助長する内容として批判を受けた。
Microsoft、ハリー・ポッター海賊版でAI訓練を推奨したブログ記事を削除
Microsoftは2025年2月、同社が2024年11月に公開していたAI開発ガイドのブログ記事を削除しました。この記事は、ハリー・ポッターシリーズの海賊版書籍を使ってAIモデルを訓練する方法を紹介していました。記事を執筆したのは、Microsoftで10年以上勤務するシニアプロダクトマネージャーのPooja Kamath氏です。記事では、Azure SQL DBとLangChain、大規模言語モデル(LLM)を使って、わずか数行のコードで生成AIの機能を追加できる新機能を宣伝していました。しかし、技術ニュースサイトHacker Newsで批判が集まり、著作権侵害を助長する内容だと指摘されました。Microsoftはこの批判を受けて記事を削除しましたが、コメントの要請には応じていません。この問題は、AI企業が著作権で保護された作品を無断で訓練データに使用している現状を浮き彫りにしています。
ブログ記事の内容と問題点
削除されたブログ記事は、Microsoftの新機能を紹介するために「よく知られたデータセット」としてハリー・ポッターシリーズを使用することを提案していました。記事では、ハリー・ポッターを「文学史上最も有名で愛されているシリーズの一つ」と紹介し、「幅広い読者に響く、魅力的で親しみやすい例」になると説明していました。
記事は、データ共有サイトKaggleにアップロードされていたハリー・ポッター全7巻のテキストデータへのリンクを掲載していました。このデータセットは「パブリックドメイン」(著作権が切れて誰でも自由に使える状態)と誤って表示されていましたが、実際にはJ.K.ローリング氏が著作権を保有しています。ハリー・ポッターシリーズの最初の作品は1997年に出版されており、著作権保護期間内です。
記事では、このデータセットを使って2つの用途を提案していました。1つ目は、ハリー・ポッターに関する質問に答えるQ&Aシステムの構築です。2つ目は、AIを使った新しいハリー・ポッターのファンフィクション(二次創作小説)の生成でした。記事は「ポッターヘッド(ハリー・ポッターファン)を喜ばせること間違いなし」と宣伝していました。
背景と経緯
このブログ記事が公開された2024年11月は、AI企業が著作権侵害で訴訟を受け始めた時期でした。多くのAI企業が、海賊版の書籍や記事を無断で訓練データに使用し、AIモデルが著作権で保護された作品をそのまま出力してしまう問題が指摘されていました。
Kaggleにアップロードされていたハリー・ポッターのデータセットは、インドのデータサイエンティストShubham Maindola氏によるものでした。Maindola氏はArsテクニカの取材に対し、「データセットを誤ってパブリックドメインとしてマークしてしまった。作品のライセンス状態を誤って伝える意図はなかった」と説明しています。このデータセットは長年オンラインで公開されていましたが、ダウンロード数は約1万回と比較的少なく、著作権者の目に留まらなかったと考えられます。
記事の執筆者であるKamath氏が、ハリー・ポッターのデータセットへのリンクを掲載するよう指示されたのか、個人の判断だったのかは不明です。シカゴケント法科大学の知的財産法プログラム共同ディレクターであるCathay Y. N. Smith教授は、Kamath氏が著作権の保護期間について十分な知識を持っていなかった可能性を指摘しています。
具体的な使用例と著作権上の問題
ブログ記事では、ハリー・ポッターのテキストデータをAzure Blob Storage(Microsoftのクラウドストレージサービス)にアップロードし、AIモデルを訓練する手順を詳しく説明していました。Microsoftは例として、第1巻「ハリー・ポッターと賢者の石」のデータを使ったモデルを作成していました。
Q&Aシステムの例では、「魔法界のお菓子」という質問に対して、AIが「百味ビーンズ」や「蛙チョコレート」が登場する場面を抽出して回答していました。また「ハリーが魔法使いだと知ったときの気持ちは?」という質問には、本の該当箇所を引用して答えていました。
さらに注目すべきは、ファンフィクション生成の例です。Kamath氏は、ホグワーツ特急の車内でハリーが新しい友人に出会い、その友人がMicrosoftの新機能について説明するという物語をAIに生成させていました。この物語では、Microsoftの技術を「何千もの選択肢の中から必要なものを瞬時に見つける呪文のようなもの」と表現していました。さらに、Microsoftのロゴが入ったハリーと友人の画像まで生成していました。
Smith教授は、これらの使用例が著作権者を困惑させる可能性があると指摘しています。「ファンフィクションは、著作権で保護された表現要素、つまり有名なキャラクター、プロット、ストーリーの流れなどを使用する必要があります。これらがコピーされて再生産される場合、その出力は侵害となる可能性があります」と説明しています。
法的な影響と今後の展開
Smith教授は、Microsoftがブログ記事を削除したのは「おそらく賢明な判断」だったと評価しています。裁判所は一般的に、著作権で保護された書籍でAIを訓練することはフェアユース(公正な使用)に該当すると判断していますが、海賊版の訓練データについては引き続き審理が行われています。
フェアユースとは、著作権で保護された作品を許可なく使用できる例外規定のことです。教育目的、批評、ニュース報道などの場合に認められることがあります。Hacker Newsのコメント投稿者たちは、このブログが「教育目的」であるためフェアユースに該当する可能性を指摘していました。Smith教授も、Microsoftが「良い主張」を展開できる可能性があると述べています。
しかし、Microsoftが海賊版の書籍を使って例示用のモデルを訓練したことを知っていた場合、フェアユースの主張は「難しい議論になる可能性がある」とSmith教授は指摘しています。さらに、ブログ記事を1年間公開し続けたことで、Microsoftは何らかの形で著作権侵害に寄与した責任を問われる可能性があります。記事が削除される前に、Kaggleのデータセットは1万回以上ダウンロードされていました。
Smith教授は「最終的な結果は、『さあ、この侵害物を手に入れて、私たちのシステムで使ってください』と言って、侵害物を作成することです。彼らは著作権侵害に対して何らかの二次的な寄与責任を負う可能性があります」と述べています。
AI業界全体への影響
この問題は、Microsoftだけでなく、AI業界全体が直面している著作権問題を象徴しています。多くのAI企業が、大量のテキストデータでモデルを訓練していますが、その中には著作権で保護された作品が含まれている可能性があります。
現在、複数の出版社や作家がAI企業を相手取って訴訟を起こしています。これらの訴訟では、AI企業が許可なく著作物を訓練データに使用したこと、そしてAIモデルが著作物をそのまま出力してしまうことが問題視されています。
今回のMicrosoftの事例は、大手テクノロジー企業でさえ著作権管理に課題を抱えていることを示しています。特に、パブリックドメインと誤って表示されたデータセットを使用してしまったことは、AI開発者が訓練データの出所を慎重に確認する必要性を浮き彫りにしています。
今後、AI企業は訓練データの著作権状態をより厳密に確認し、権利者から適切な許可を得る必要があるでしょう。また、AIモデルが生成するコンテンツが既存の著作物を侵害しないよう、技術的な対策も求められています。この問題は、AI技術の発展と著作権保護のバランスをどう取るかという、業界全体の課題となっています。
