今年2024年,英伟达这家引领AI浪潮的大公司摊上事儿了,竟然因为训练模型用了盗版数据,被一帮图书作者告上了法庭。这事儿闹大了,很可能会改变整个行业怎么用数据的规矩。那些写小说、写书的人凑成了一个大团体,专门针对英伟达在那儿的指控就是:它为了训练自己的NeMo和Retro-48B这些先进的AI模型,偷偷从网上搞了一堆盗版图书来喂给它们。据提交给法院的文件和内部聊天记录看,英伟达的数据部门为了赶紧搞出大语言模型,主动找了个叫“安娜档案馆”的地方,想要拿几百万份资料来做训练。这封邮件说得挺明白,“安娜档案馆”那边直接告诉英伟达,他们手里的东西都是非法弄来的,得让英伟达的高管确认能合作才行。 关键就在于,英伟达的管理层明明知道这些数据来路不正,没过几天还是点头答应了。结果英伟达拿到了访问500TB数据的权限,里面藏着好几百万本书,好多本来只能在“互联网档案馆”那样的地方慢慢借来看。这不是英伟达头一回因为数据搞出事了。其实在今年年初,就有人因为它用的“Books3”数据集涉嫌侵权去告过它。那时候英伟达还挺硬气地说,用书上的内容算合理使用,就是统计用的。可是现在新出来的内部文件让这事儿性质变了。原告律师说了,证据表明英伟达不是无意爬网,而是知道那是盗版还故意去买的。这么一来,它那个“合理使用”的说法也就站不住脚了。 专家觉得这案子把AI行业的一个大矛盾给捅出来了:大家都想要高质量、海量的文字数据来喂模型,但现在的知识产权保护体系根本跟不上。像训练NeMo、Retro-48B这种大模型,得吞进天文数字级别的文字量,想合法搞到干净没争议的语料库太难、太贵了。所以有些公司就会去踩法律的灰色地带找捷径。“安娜档案馆”就是这种提供捷径的“影子图书馆”,自己也一直被法律盯着查。这次它跟英伟达的信都给晒出来了,这是这种平台第一次大规模跟美国顶级科技公司的合作曝光。这下子不光把自己放在了聚光灯下,也让人开始担心网络上那些盗版资源是怎么被科技巨头合规利用的。之前“安娜档案馆”已经因为法律问题丢了好多域名了。 这次的结果很重要,不只是英伟达自己倒霉的事。它直接问了一个问题:AI发展的时候,企业能不能直接用网上大量的侵权内容来训练?当技术研发的需要撞上版权保护的绝对化要求,法律该怎么平衡?判决不仅会影响英伟达的研发路子和赔钱多少,还能给全世界AI行业怎么搞数据采集定个调子。这场官司已经不只是一个公司的商业纠纷了,成了看AI时代知识产权规则怎么变的重要窗口。在技术狂奔的时候,怎么建一个合法、公平又能持续的数据供给体系?这是产业、立法还有司法机构都得赶紧琢磨的事儿。最后的判决结果可能会在这儿写下重要的一笔。