OpenAIが業務用AIエージェントの性能評価のため、契約作業者に過去の実務データの提供を依頼。機密情報の削除は作業者任せで、法的リスクの懸念も。企業秘密の漏洩や契約違反の可能性が指摘されています。

OpenAI、実務データ収集で契約作業者に過去の業務ファイル提供を依頼

OpenAIは、次世代AIモデルの性能を評価するため、契約作業者に対して現在または過去の職場で実際に行った業務の課題やファイルをアップロードするよう依頼していることが、WIREDが入手した資料で明らかになりました。この取り組みは、AIエージェントとは、人間の指示に基づいて複雑な業務を自動的に実行するAIシステムのことです。例えば、メールの返信や資料作成、データ分析などを人間に代わって行います。OpenAIは、こうしたAIエージェントをオフィス業務に対応させるため、人間が実際にどのように仕事をしているかのデータを必要としています。同社は2024年9月に、さまざまな業界の専門家とAIモデルの性能を比較する新しい評価プロセスを開始しました。これは、AGI（汎用人工知能）とは、ほとんどの経済的価値のある業務で人間を上回るAIシステムのことです。OpenAIはこの目標に向けた進捗を測る重要な指標として、実務データの収集を位置づけています。しかし、機密情報や個人情報の削除は作業者自身に任されており、企業秘密の漏洩や法的リスクが懸念されています。

OpenAIが求める実務データの詳細

OpenAIの機密文書によると、同社は「さまざまな職業の人々を雇用し、フルタイムの仕事で行った実際の業務をモデル化した現実世界のタスクを収集している」と説明しています。契約作業者は、数時間から数日かかるような長期的または複雑な業務を選び、それぞれをタスクとして提出するよう求められています。

WIREDが閲覧したOpenAIのプレゼンテーション資料では、作業者は現在または過去の仕事で行ったタスクを説明し、実際に作成した成果物をアップロードするよう指示されています。成果物は「具体的な出力物（ファイルの要約ではなく実際のファイル）」である必要があり、Word文書、PDF、PowerPoint、Excel、画像、リポジトリなどが含まれます。また、特定のシナリオでどのように対応するかを示すために作成した架空の業務例も共有できるとしています。

実務タスクには2つの要素があります。1つ目は「タスク要求」で、上司や同僚から指示された内容です。2つ目は「タスク成果物」で、その要求に応じて実際に作成した業務成果です。OpenAIは指示の中で複数回にわたり、作業者が共有する例は「実際の業務で本当に行った」ものであることを強調しています。

具体的な業務例と求められる内容

OpenAIのプレゼンテーションには具体例が示されています。「超富裕層向け高級コンシェルジュ会社のシニアライフスタイルマネージャー」という職種の例では、「初めてバハマを訪れる家族のために、7日間のヨット旅行の概要を2ページのPDFにまとめる」というタスクが挙げられています。家族の興味や旅程の詳細が含まれ、「経験豊富な人間の成果物」として、実際にクライアントのために作成したバハマの旅程表をアップロードすることが示されています。

このように、OpenAIは単なる業務の説明ではなく、実際に作成した文書やファイルそのものを求めています。これにより、AIモデルが人間の専門家と同等またはそれ以上の品質で業務を遂行できるかを評価する基準を確立しようとしています。

機密情報の削除は作業者任せ

OpenAIは、作業者がアップロードする業務ファイルから企業の知的財産や個人を特定できる情報を削除するよう指示しています。「重要な注意事項」というセクションでは、「個人情報、機密データ、重要な非公開情報（内部戦略、未発表の製品詳細など）を削除または匿名化すること」と記載されています。

WIREDが閲覧した文書の1つには、「Superstar Scrubbing」というChatGPTツールが言及されており、機密情報を削除する方法についてアドバイスを提供するとされています。しかし、何が機密情報に該当するかの判断は、基本的に作業者個人に委ねられています。

知的財産法の専門家であるエヴァン・ブラウン弁護士は、この規模で契約作業者から機密情報を受け取るAI研究所は、企業秘密の不正取得の訴えを受ける可能性があると指摘しています。過去の職場から文書を提供する契約作業者は、たとえ機密情報を削除したとしても、以前の雇用主との秘密保持契約に違反したり、企業秘密を漏洩したりするリスクがあります。

ブラウン弁護士は「AI研究所は、何が機密で何がそうでないかを決定する上で、契約作業者に大きな信頼を置いている」と述べています。「もし何かが漏れてしまった場合、AI研究所は本当に何が企業秘密で何がそうでないかを判断する時間を取っているのでしょうか。AI研究所は自らを大きなリスクにさらしているように思えます」と警告しています。

AI業界のデータ収集戦略

今回明らかになった文書は、AI研究所が実世界の業務でモデルを優れたものにするために使用している戦略の1つを示しています。OpenAI、Anthropic、Googleなどの企業は、企業業務を自動化できるAIエージェントを開発するため、高品質のトレーニングデータを生成できる契約作業者の大規模なネットワークを構築しています。

AI研究所は長年、Surge、Mercor、Scale AIなどのサードパーティ契約会社に依存してデータ契約作業者のネットワークを雇用・管理してきました。しかし近年、AI研究所はモデルを改善するためにより高品質なデータを必要としており、それを生成できる熟練した人材に対してより高い報酬を支払わざるを得なくなっています。これにより、AIトレーニング業界内に収益性の高いサブ産業が生まれました。Handshake AIは2022年に35億ドルの評価額を受けたと述べており、Surgeは昨年夏の資金調達交渉で250億ドルの評価額を自己申告したと報じられています。

他のデータ入手方法も模索

OpenAIは、実際の企業データを入手する他の方法も探っていたようです。倒産した企業の資産売却を支援する人物がWIREDに語ったところによると、OpenAIの代表者がこれらの企業からデータを入手することについて問い合わせてきたとのことです。条件は、個人を特定できる情報を削除できることでした。

この情報源は、ビジネス関係を損ないたくないため匿名を条件にWIREDに語りました。データには文書、メール、その他の内部コミュニケーションが含まれていたとのことです。この情報源は、個人情報を完全に削除できる自信がなかったため、このアイデアを追求しないことを選択したと述べています。

できること・できないこと

この取り組みにより、OpenAIは実際の業務環境でAIモデルがどの程度機能するかを評価できるようになります。例えば、マーケティング資料の作成、データ分析レポートの作成、顧客向けプレゼンテーションの準備といった複雑な業務において、AIが人間の専門家と同等の品質で成果物を生成できるかを測定できます。また、さまざまな業界や職種における人間の業務パフォーマンスの基準を確立し、それとAIモデルを比較することで、AGI達成への進捗を客観的に評価できます。

一方で、機密情報の完全な削除は依然として困難な課題です。何が機密情報に該当するかの判断は作業者個人に委ねられており、専門的な法的知識がない場合、意図せず企業秘密や個人情報を含むデータを提供してしまう可能性があります。また、過去の雇用主との秘密保持契約に違反するリスクや、OpenAI自体が企業秘密の不正取得で訴えられるリスクも存在します。現時点では、これらの法的リスクを完全に排除する仕組みは確立されていません。

私たちへの影響

このニュースは、AIエージェントの開発に関心を持つ技術者やビジネスパーソン、そして自分の業務がAIに置き換えられる可能性を懸念する労働者に重要な意味を持ちます。OpenAIが実務データを大規模に収集していることは、AIエージェントが近い将来、多くのオフィス業務を自動化できるようになる可能性を示しています。

短期的な影響については、契約作業者として実務データの提供を依頼された場合、機密情報の取り扱いに細心の注意を払う必要があります。過去の雇用主との秘密保持契約を確認し、提供するデータが契約に違反しないか慎重に判断することが重要です。中長期的な影響としては、AIエージェントの性能向上により、資料作成、データ分析、顧客対応などの定型的な業務が自動化される可能性が高まります。これにより、人間の労働者はより創造的で戦略的な業務に集中できるようになる一方、スキルの再教育や職種の転換が必要になる可能性もあります。

ただし、機密情報の管理やプライバシー保護に関する法的枠組みが整備されるまで、このようなデータ収集方法には慎重な姿勢が求められます。企業は自社の機密情報が意図せず流出するリスクを認識し、従業員に対して適切な教育と契約上の保護措置を講じる必要があるでしょう。

出典：OpenAI Is Asking Contractors to Upload Work From Past Jobs to Evaluate the Performance of AI Agents（www.wired.com）