用他人书籍预训练AI大模型，Meta、微软等遭集体诉讼

人工智能公司依赖大量公共数据来训练AI模型，不仅限于书籍，还包括照片、艺术、音乐等。随着诸如ChatGPT或Stable Diffusion等工具变得容易获得，关于提供数据的人应该如何得到补偿的争论日益加剧，也涉及大量法律诉讼。

近日，前阿肯色州州长迈克·哈克比与其他一些作者正在对Meta、微软以及其他公司提起诉讼，指控它们未经授权使用他们的作品来开发人工智能工具。在本周提交的一项诉讼中，哈克比以及包括基督教作家莉莎·泰克赫斯特在内的其他作者声称，他们的书籍被盗版并用于训练AI模型的数据集。人工智能研究团队EleutherAI以及彭博公司也被列为被告。

这一提出的集体诉讼，是作者指控科技公司未经授权，使用其作品来训练生成式人工智能模型的最新例子。在过去几个月中，一系列知名作者，包括乔治·R·R·马丁、乔迪·皮库特以及迈克尔·查邦，都曾因OpenAI侵犯版权问题而起诉。

迈克·哈克比的案件集中在一个备受争议的数据集“Books3”上，其中包含超过18万份作品，用于训练大型语言模型。今年八月，The Atlantic杂志发布了“Books3”中所有标题以及作者信息的可搜索数据库。而“Books3”实际上是EleutherAI创建的更大数据集“Pile”的一部分，该诉讼称这些数据集被公司用来训练他们的产品。

诉讼文件中提到：“Meta和微软能够在LLM的训练过程中，整合包括‘Books3’中的盗版受版权保护的材料在内的复杂数据集，而无需赔偿作者。”微软拒绝对此事置评，而Meta、彭博和EleutherAI则未回应置评请求。

用他人书籍预训练AI大模型，Meta、微软等遭集体诉讼

相关推荐