MetaがAI強化のため「訴えられてもいいから著作権で保護された作品をかき集めよう」と議論していたとの報道


Metaの幹部と弁護士が「訴訟リスクをふまえてでも著作権保護コンテンツをAIトレーニングに使用することを検討していた」ことを、秘密会議の記録をもとにThe New York Timesが報じました。
Four Takeaways on the Race to Amass Data for A.I. - The New York Times
https://www.nytimes.com/2024/04/06/technology/ai-data-tech-takeaways.html
Tech giants: How tech giants cut corners to harvest data for AI - The Economic Times
https://economictimes.indiatimes.com/tech/technology/how-tech-giants-cut-corners-to-harvest-data-for-ai/articleshow/109093168.cms
AIモデルのトレーニングにはおびただしいデータが必要で、例えばOpenAIのGPT-3のトレーニングには2007年以降に収集されたウェブページのテキスト4100億トークンを含め、書籍のスキャンやSNSの書き込みなど3兆以上のトークンが用いられました。


インターネットでは膨大なデータが常に生成されており、全世界で取得されたり消費されたりしているデータの総量は、2025年までに年間180ゼタバイト(1ゼタバイトは1兆ギガバイト)以上に達すると推測されています。しかし、それ以上にAIが多くのデータを必要とするため、AIのトレーニングに使える高品質なデータは2026年までに枯渇するとの試算結果が、2022年の論文で示されました。
激しさを増す「AI軍拡競争」を制するため、企業らはルールすら無視したデータの収集に血道を上げており、The New York Timesは2024年4月6日の記事で「OpenAIがYouTubeの利用規約に抵触する形で動画をAIのトレーニングに用いていたこと」や、「YouTubeの親会社であるGoogleも同様の行為をしているためOpenAIの違反を黙認していたこと」を報じています。
100万時間以上のYouTube動画をOpenAIがAIモデルのトレーニングに利用していたことが判明 - GIGAZINE


さらに、The New York Timesは別の記事で、Metaの幹部がAIを開発する上で必要な大量のデータを入手する方法について弁護士と議論した際の録音データを入手したと報じました。
先行するChatGPTの存在に焦りを募らせていたMetaの生成AI担当ヴァイスプレジデントのアフマド・アル=ダーレ氏は、2023年3月から4月にかけて毎日のようにAI開発事業のリーダーや弁護士らと会議を開き、もっとデータがなければOpenAIに追いつけないとせき立てたとのこと。
こうした会議の中では、新刊1冊につき一律で10ドル(約1500円)のライセンス料を支払うといった案や、J・K・ローリングやスティーブン・キングなどの人気作家の作品を手がけている大手出版社のSimon & Schusterを買収するといった案が検討されました。
また、アフリカの業者を雇ってインターネットや書籍などから著作権で保護された作品を無断で要約したことが話題に上ったり、「たとえそれが訴訟につながることになったとしても、さらに多くの作品を吸い上げよう」という意見が飛び出たりすることもありました。


これに対し、ある弁護士は「アーティストから知的財産権を奪うのはいかがなものか」と倫理的な懸念を投げかけましたが、重い沈黙が流れただけだったことが録音記録に残されています。
Metaのグローバル・パートナーシップおよびコンテンツ担当ヴァイスプレジデントのニック・グルーディン氏は、ある会議で「ChatGPTのような優れたものを作る上での障害は、文字通りデータ量だけです」と発言しました。

ジャンルで探す