英伟达被诉使用安娜档案馆500TB盗版书训练AI

芯片制造商英伟达遭多位图书作者提起集体诉讼,指控其为训练人工智能模型非法获取大量受版权保护的书籍。据原告提交的修订诉状,英伟达曾主动联系影子图书馆“安娜档案馆”,寻求高速访问权限以下载约500TB数据,包含数百万本盗版图书。

诉状援引英伟达内部文件指出,该公司数据战略团队成员曾与“安娜档案馆”接洽,探讨将其资源用于大语言模型预训练的可行性。“安娜档案馆”在沟通中明确告知其藏书系非法获取,并要求确认英伟达是否获得内部授权推进合作。诉状称,英伟达管理层在一周内批准该项目,随后获得对该图书馆盗版资源的访问权限。

除“安娜档案馆”外,原告还指控英伟达从“图书馆基因”(LibGen)、“科学枢纽”(Sci-Hub)和“Z-Library”等其他影子图书馆下载受版权保护的书籍。此前已有指控指称英伟达使用源自Bibliotik网站的Books3数据集训练其NeMo、Retro-48B、InstructRetro及Megatron等模型,此次诉讼进一步扩大了涉及的数据源和模型范围。

原告方包括阿布迪・纳泽米安等作家,主张英伟达的行为构成直接、辅助及共同侵权。他们指出,英伟达不仅自身使用盗版数据,还向企业客户分发脚本和工具,使其能够自动下载包含盗版内容的“The Pile”数据库,从而协助第三方获取侵权数据并从中受益。

尽管英伟达辩称其行为属于“合理使用”,认为书籍仅作为统计关联数据用于模型训练,但原告强调,该公司的做法未经任何版权所有者许可,且未尝试取得合法授权。诉讼要求英伟达对所有受影响作者进行赔偿,涵盖目前已知及未来可能加入集体诉讼的数百名权利人。

该案标志着美国大型科技公司与“安娜档案馆”之间往来文件首次被公开披露。目前尚无证据表明英伟达是否实际支付了数据访问费用。随着人工智能训练数据来源合法性争议持续升温,此案凸显了版权保护与技术发展之间的法律冲突。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1