ネット上に驚くほど多くの機械翻訳コンテンツがあふれることで言語モデルのトレーニングに影響が出る可能性

ネット上に驚くほど多くの機械翻訳コンテンツがあふれることで言語モデルのトレーニングに影響が出る可能性 - 画像


AIは膨大な量のデータを学習することによって成り立っています。データの多くはネットで収集されていますが、マイナー言語だと機械的に翻訳された情報が大量に出回っている状態で、言語モデルのトレーニングに懸念があることを研究者が指摘しています。
[2401.05749] A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism
https://arxiv.org/abs/2401.05749
A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism
https://arxiv.org/html/2401.05749v1

ネット上に驚くほど多くの機械翻訳コンテンツがあふれることで言語モデルのトレーニングに影響が出る可能性 - 画像


AWS AIラボのブライアン・トンプソン氏らは、機械翻訳がウェブに与えた影響を調査しました。
無料の機械翻訳がネット上で使用できるようになったのは1997年後半からで、ほぼ同時期に、トレーニングデータのスクレイピングが始まっています。
ウェブ上のコンテンツは複数の言語に翻訳されることがありますが、機械翻訳で並列的に複数言語に翻訳されると品質が下がることがわかっています。
以下は、縦軸が翻訳の評価スコア、横軸が翻訳された言語の数を表しています。翻訳される言語が増えるほど品質が低下していることがわかるとともに、機械翻訳の普及率が高くなっていることを示唆しています。

ネット上に驚くほど多くの機械翻訳コンテンツがあふれることで言語モデルのトレーニングに影響が出る可能性 - 画像


英語のようなメジャーな言語はネット上に人間が生み出したコンテンツ(リソース)が大量に存在するため、スクレイピングしても、品質の低いデータが紛れ込む割合は低くなります。
しかし、ネット上にコンテンツが少ない低リソース言語の場合、機械翻訳で生み出されたものが当該言語コンテンツの大半を占めてしまうことになります。
また、言語モデルをトレーニングするにあたってデータセットの内容には偏りがないことが求められますが、機械翻訳で生成されたコンテンツの内容は、選択バイアスがかかっていることもわかっています。これは、広告収入目当てに生成された、低品質な英語コンテンツを機械翻訳によって複数言語にまとめて翻訳したためであることが示唆されています。

ネット上に驚くほど多くの機械翻訳コンテンツがあふれることで言語モデルのトレーニングに影響が出る可能性 - 画像


低品質なコンテンツが増えると、そのコンテンツを学習して行われる機械翻訳において翻訳精度や文章の流暢性が低下し、より多くの「幻覚」を伴う流暢性の低いモデルの生成につながるとのことで、トンプソン氏らは、ウェブから収集した単言語データと二言語データで多言語の大規模言語モデルのトレーニングを行うことについて、深刻な懸念が引き起こされていると述べました。

ジャンルで探す