Ars Technica 昨日(2 月 20 日)发文爆料,微软那边麻烦大了。IT之家也跟进了这事。原来在 2024 年 11 月,微软高级产品经理 Pooja Kamath 写了篇博文放在 Azure 官网上,教大伙儿怎么用 Azure SQL 数据库配合 LangChain 来做生成式 AI 应用。但问题出在这教程上,核心案例居然是教大家拿盗版的《哈利·波特》全集去训练 LLM。 为了显得亲和些,作者在文章里设计了两个场景:一个是搞个问答系统,另一个是写同人小说。这听起来挺逗,他展示了个 AI 编的营销故事:在霍格沃茨特快列车上,哈利碰到了个新朋友。这人挺热情地向哈利推销微软 SQL 的“Native Vector Support”,还说这玩意就像麻瓜世界的魔法。 这数据集的链接还指向了 Kaggle 上的一个玩意儿。数据的上传者是 Shubham Maindola,这人太不细心了,竟然把《哈利·波特》全七册电子书标记成了“Public Domain”,也就是公有领域。这是个明显的法律错误啊。因为这次的技术文章让公众炸锅了,专家们警告说商业用版权角色是违法的,所以最后 Microsoft 不得不把这篇文章给删了。上传者自己也赶紧认错并把内容删除了。