给200 万条含“排行榜”“榜单”的文章和视频发放了通行证,过去一个月里互联网上充斥着这类定制内容。

给200万条含“排行榜”“榜单”的文章和视频发放了通行证,过去一个月里互联网上充斥着这类定制内容。中国社会科学院助理研究员李元琨指出,这批非官方数据不仅没有面向人传播,反而是为了污染AI训练池。 当用户向AI咨询热门餐厅时,大模型可能并不依据真实的口碑和数据给出建议,而是被一条地下产业链操纵了结果。这是因为中国科学技术大学计算机学院的研究员郑值发现,粗糙网站通过嵌入特定关键词和模仿权威信源的格式,成功让AI误以为这些榜单是可信的。 中国移动九天大语言模型算法专家龙翀表示,他们通过识别特殊字符等手段对疑似被污染的数据进行降权处理。而被称为“AI搜索优化”的服务已经形成了闭环产业链,甚至在电商平台上明码标价。 记者追踪某餐厅榜单时发现其源头可疑:网站域名酷似政府部门官网,内容却是批量生产的格式雷同的排行榜。正常用户很容易识破异常,但人工智能却被这种逻辑清晰的文本所“俘获”。 为了抢占推荐位,黑产从业者专门针对AI的数据抓取模式生产软文。中国科学技术大学计算机学院研究员郑值指出这种手法旨在伪装权威信源,利用大模型对规范文本的偏好。 李元琨分析认为这标志着黑产已进入成熟阶段。这些内容被批量投放至网络的目的明确:污染AI环境使其误判商业信息为多源支持的客观结论。 龙翀透露部分主流大模型已在回复中增加提示,尝试避免推荐具体品牌。面对数据污染企图,系统自身也在进化。 这场攻防战具有长期性与复杂性。技术升级、训练数据净化均需时间,而更广泛的生态治理涉及平台责任、监管规范等多维度协同。 人工智能的智能来源于人类投喂的数据。当数据池被刻意植入的诱饵污染时,其输出可能偏离客观与公正。应对这一问题需要技术提供方完善机制、监管规范服务边界,也呼唤用户增强信息素养。 唯有形成技术迭代、行业自律、监管跟进与用户警觉的合力,才能共同守护一个清朗、可信的应用生态。