「Bluesky運営元はユーザーの投稿をAI学習に使わないが第三者はAI学習できてしまう」という実例が登場、BlueskyのAPI経由で100万投稿分のデータセットがHugging Faceで公開されてしまう
2024年11月に利用規約を更新したX(旧Twitter)では、投稿をAI学習に利用することを明文化しました。これを受けて、多くのユーザーが「投稿をAIのトレーニングに利用することはない」と表明している競合SNSのBlueskyに移行しています。しかし、BlueskyのAPI経由で入手した100万投稿分のデータセットがHugging Face上で公開されてしまう事態が発生しました。
Someone Made a Dataset of One Million Bluesky Posts for 'Machine Learning Research'
https://www.404media.co/someone-made-a-dataset-of-one-million-bluesky-posts-for-machine-learning-research/
Bluesky may not train AI on your posts, but others can, and users are furious - Neowin
https://www.neowin.net/news/bluesky-may-not-train-ai-on-your-posts-but-others-can-and-users-are-furious/
Bluesky, AI, and the battle for consent on the open web
https://werd.io/2024/bluesky-ai-and-the-battle-for-consent-on-the-open
Blueskyは2024年11月15日に公式アカウントを更新し、「ユーザーのコンテンツを生成AIのトレーニングに使用することはありません」との立場を表明しました。しかし、Blueskyはすべての投稿をオープンな状態に保つ仕組みを採用しているため、第三者によるAI学習を防ぐことはできないという懸念が存在していました。
BlueskyがX(旧Twitter)とは異なり「投稿をAIのトレーニングに利用することはない」と表明 - GIGAZINE
そんな中、エンジニアのDaniel van Strien氏は2024年11月26日に「Blueskyでの100万件の投稿を用いたデータセットをHugging Face上に公開しました」と発表しました。Van Strien氏はこのデータセットについて「ソーシャルメディアコンテンツに関する言語モデルのトレーニングとテスト、ソーシャルメディアでの投稿パターンの分析、会話構造と返信ネットワークの研究、ソーシャルメディアコンテンツのモデレーションに関する研究、およびソーシャルメディアデータを使用した自然言語処理タスクに使用できます」と述べています。
First dataset for the new @huggingface.bsky.social @bsky.app community organisation: one-million-bluesky-posts ????
???? 1M public posts from Bluesky's firehose API
???? Includes text, metadata, and language predictions
???? Perfect to experiment with using ML for Bluesky ????
huggingface.co/datasets/blu...
[image or embed]— Daniel van Strien (@danielvanstrien.bsky.social) 2024年11月26日 22:50
投稿の中でVan Strien氏は「データセットの作成にはBlueskyのAPIであるFirehoseを利用しました」と説明しています。Firehoseは、すべての投稿をリアルタイムでストリーミングできるAPIで、第三者が投稿データを自由に使用することを可能にするというものです。
しかし、一部のユーザーからはこのデータセットに対して批判が殺到しました。あるユーザーは、「Xによるくだらないスクレイピングから離れるためにBlueskyに移行したのに、BlueskyのデータをAIのトレーニングに利用しようとするあなたは最低だ」と厳しくVan Strien氏を追求しています。
You are the absolute worst for even suggesting ML training off this data while BSky themselves said they'd never train on it and MANY came here to leave Muskrat's stupid ML/AI scraping.— Dix (@dixonij.bsky.social) 2024年11月28日 6:23
こうした批判を受けてVan Strien氏は2024年11月27日に、該当のデータセットをHugging Faceのリポジトリから削除。Van Strien氏は「私はプラットフォームのツール開発をサポートしたかったのですが、今回のアプローチはデータ収集における透明性と同意の原則に反していると認識しました。今回の過ちをおわびいたします」と述べています。
I've removed the Bluesky data from the repo. While I wanted to support tool development for the platform, I recognize this approach violated principles of transparency and consent in data collection. I apologize for this mistake.
[image or embed]— Daniel van Strien (@danielvanstrien.bsky.social) 2024年11月27日 11:19
データセットが公開された後にBlueskyは公式アカウントを更新し、「AI学習への利用に同意するか否かを明示する仕組み」を開発中であることを明らかにしました。
Brief update on our ongoing efforts to allow users to specify consent (or not) for AI training: 🧵— Bluesky (@bsky.app) 2024-11-27T01:52:05.788Z
AI学習可否を示す仕組みは、ウェブサイトにおける「robots.txt」のような形態が検討されています。ただし、Blueskyは「外部の開発者がユーザーの同意を尊重するかどうかは、その開発者に委ねられています」と述べています。
For example, this might look like a setting that allows Bluesky users to specify whether they consent to outside developers using their content in AI training datasets
Bluesky won’t be able to enforce this consent outside of our systems. It will be up to outside developers to respect these settings— Bluesky (@bsky.app) 2024年11月27日 11:11
また、Blueskyは「エンジニアや弁護士と話し合いを続けており、近日中に最新情報をお伝えできると思います」と伝えています。
We’re having ongoing conversations with engineers & lawyers and we hope to have more updates to share on this shortly!— Bluesky (@bsky.app) 2024年11月27日 11:18
11/28 12:18
GIGAZINE