OpenAIが開発し、広く普及している「ChatGPT」は、膨大な量のデータで訓練されている生成型の人工知能(AI)モデルだ。その訓練には、2021年以前のインターネット上の膨大なデータが用いられていた。
提供:Getty Images/PhonlamaiPhoto
ChatGPTの訓練に用いられたこれらのデータが今、同社を相手とする新たな訴訟の争点となっている。
米国時間6月28日にOpenAIと同社のパートナーであるMicrosoftを相手取って起こされた集団訴訟で、原告側はOpenAIが「ChatGPT-3.5」や「ChatGPT-4.0」「DALL・E」「VALL-E」といった同社製品の「訓練と開発」に「盗んだデータ」を用いたと主張している。
訴状によると、OpenAIは同社のチャットボットが人間の言葉を再現できるようにするために、あらゆる年齢層の子どものデータを含む、「何も知らされていない膨大な数のコンシューマー」からデータを盗んだという。
さらに原告側は、OpenAIがユーザーの許可を得ることなく、個人的な会話や、医療データといった「膨大な量の個人データをインターネットから収集している」とも主張している。
157ページにおよぶ訴状のあるセクションでは、OpenAIが収集、保存、追跡、共有しているプライベートな情報として、ソーシャルメディア上の情報や、クッキー、キーストローク、検索入力、支払い情報などを挙げている。
さらにこの訴状によると、OpenAIはGPT-4を搭載したアプリケーションからもデータを収集しているという。こういったデータには、「Snapchat」を介した画像関連データや、「Spotify」における楽曲のお気に入り設定、「Stripe」における金融情報などが含まれている。
原告側は、被告側がどのようなデータをどこで、そして誰から収集しており、どのように使用しているのかを明らかにできる透明性を速やかに実現するよう求めている。また、すべての原告および集団訴訟の構成員となる人々に対して、盗んだデータに対する補償が与えられるよう求めてもいる。
その上で原告側は、全てのデータ収集をオプトアウトできる選択肢をOpenAI側で用意するとともに、インターネット上にあるデータの「違法な」スクレーピングを停止するよう求めてもいる。
OpenAIが訴えられたのは今回が初めてではない。同社は6月初めに、ある人物に関してChatGPTが誤った情報を出力したという理由で訴えられている。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。