英伟达与作家团体的版权纠纷案件再度升级。这起"Nazemian诉英伟达案"自2024年初启动以来,围绕AI模型训练数据来源问题引发持续争议;英伟达1月29日向法院提交的驳回动议,标志着双方对抗进入新阶段。 案件的核心问题是,原告作家团体指控英伟达开发AI工具和模型过程中,非法使用了受版权保护的书籍。原告声称这些书籍来自Anna's Archive和Books3等盗版资源库。在修订版起诉书中,原告补充了新的理论依据和数据集指控,并援引英伟达内部讨论记录,称公司员工曾就是否能访问Anna's Archive进行确认,作为非法获取版权作品的关键证据。 英伟达的辩护策略集中在两个上。首先,公司强调原告指控缺乏事实依据。英伟达指出,原告未能提供证据证明其作品被下载或用于模型训练,也未说明复制发生的具体时间、方式和涉及的模型。在版权侵权诉讼中,原告必须在起诉阶段就提出足以支持"复制受保护作品"的事实依据,而非通过诉讼程序启动证据开示后再行确认。英伟达认为,在现有指控下,"合理的解释是公司并未获取原告作品"。 其次,英伟达对"讨论即使用"的逻辑提出质疑。公司强调,员工内部讨论某个数据来源或评估其可能性,并不等同于实际下载或获取对应的作品。此辩词触及了AI产业发展中的关键问题:企业的内部沟通、技术评估与实际行为之间的法律界限。 英伟达还批评原告大量依赖"基于信息与信念"的表述方式,认为这试图以诉讼中的证据开示程序替代起诉阶段应当完成的事实陈述。此外,英伟达反对原告新增的多个数据集与模型指控,认为原告将多个模型与工具"打包式"指控,却未能解释任何特定模型如何使用原告作品进行训练。英伟达还引用其公开文档,指出原告对训练数据来源的推断与公开资料存在矛盾。 这起诉讼反映了AI产业快速发展与知识产权保护之间的张力。随着生成式AI技术的广泛应用,大规模文本数据的获取和使用方式成为业界关注焦点。AI模型的训练需要海量数据支撑,但如何在获取数据过程中尊重原创作者的知识产权,成为产业健康发展的重要课题。这起案件的审理过程和最终判决,将对整个AI产业的数据使用规范产生深远影响。 根据动议内容,该驳回请求预计将于2026年4月2日在美国加州北区联邦法院举行听证。法官Jon Tigar将需要判断原告的指控是否满足版权侵权诉讼的基本要件,以及在缺乏直接证据的情况下,内部讨论记录是否足以支撑侵权指控。这一判决不仅关系到英伟达的法律责任,更将为AI企业的数据使用规范设立重要的法律先例。
围绕训练数据与版权保护的博弈,本质上是技术扩展与权利边界的再校准。无论案件最终走向如何,更可持续的路径在于把"可用的数据"转化为"可授权的数据",把"难以证明的合规"升级为"可审计的合规"。当规则逐步清晰、成本合理分担、权利与创新形成稳定预期,生成式技术的发展才能在法治轨道上获得更坚实的社会信任与产业支撑。