用他人书籍预训练AI大模型,Meta、微软等遭集体诉讼
人工智能公司依赖大量公共数据来训练AI模型,不仅限于书籍,还包括照片、艺术、音乐等。随着诸如ChatGPT或Stable Diffusion等工具变得容易获得,关于提供数据的人应该如何得到补偿的争论日益加剧,也涉及大量法律诉讼。
近日,前阿肯色州州长迈克·哈克比与其他一些作者正在对Meta、微软以及其他公司提起诉讼,指控它们未经授权使用他们的作品来开发人工智能工具。在本周提交的一项诉讼中,哈克比以及包括基督教作家莉莎·泰克赫斯特在内的其他作者声称,他们的书籍被盗版并用于训练AI模型的数据集。人工智能研究团队EleutherAI以及彭博公司也被列为被告。
这一提出的集体诉讼,是作者指控科技公司未经授权,使用其作品来训练生成式人工智能模型的最新例子。在过去几个月中,一系列知名作者,包括乔治·R·R·马丁、乔迪·皮库特以及迈克尔·查邦,都曾因OpenAI侵犯版权问题而起诉。
迈克·哈克比的案件集中在一个备受争议的数据集“Books3”上,其中包含超过18万份作品,用于训练大型语言模型。今年八月,The Atlantic杂志发布了“Books3”中所有标题以及作者信息的可搜索数据库。而“Books3”实际上是EleutherAI创建的更大数据集“Pile”的一部分,该诉讼称这些数据集被公司用来训练他们的产品。
诉讼文件中提到:“Meta和微软能够在LLM的训练过程中,整合包括‘Books3’中的盗版受版权保护的材料在内的复杂数据集,而无需赔偿作者。”微软拒绝对此事置评,而Meta、彭博和EleutherAI则未回应置评请求。
推荐阅读:
本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/industry/1201.html