别让递归污染越滚越大

前两天“3·15”晚会，给大家提了个醒，有个用AI搞灰产的操作，叫做“AI投毒”。记者弄了个叫“力擎GEO优化系统”的软件，虚构了个根本不存在的智能手环，往网上一扔。结果让人傻眼，好多AI大模型回答相关问题的时候，自己就把这个假东西给推出来了，排名还老高。这就是典型的数据污染，人为编造坏数据去误导AI。其实早在搜索算法那个年代，这种情况就有了，甚至还发展成了灰色产业链。现在的AI已经深入到我们的生活和工作里了，数据的好坏直接决定了它能不能用得稳。除了人故意加坏东西，还有一个更大的隐患是AI在上网扒数据的时候，分辨不出好赖货，把垃圾信息也给吞进去了。咱们国家有个研究数据挺吓人的：要是训练的数据里混进去0.01%的假文章，AI输出的坏内容就能暴涨11.2%；哪怕这比例降到0.001%，坏东西也还会增加7.2%。这说明哪怕一丁点脏数据，都能把模型给坑坏。在咱们大干快上搞AI应用的时候，必须把数据质量和治理提到战略高度。更麻烦的是它还会搞“递归污染”。AI既是受害者又是加害者。它吃进去脏数据生成内容后，这些内容又会被反复抓取当新的训练料来用。就像央视曝光的那个GEO灰产问题一样，这种恶性循环得赶紧刹车。还有个严重的后果就是让生态失衡。现在AI生成爽文的成本趋近于零、产量无限大，要是这种垃圾内容老是被算法推荐上去，优质原创内容就被淹没了，变成“劣币驱逐良币”。治理这块特别难办，要想验证、核实那些假信息得花大钱。所以必须从源头下手，别让递归污染越滚越大。有研究说长期让模型看劣质信息，它的能力退化是永久性的、不可逆的。咱们国家已经有了《生成式AI服务管理暂行办法》还有新版数据安全法管着呢。不过针对新冒出来的问题还得进一步完善规则。现在得把预防风险当成核心制度设计，在责任设定上更多强调过程管控而不是事后算账。这事儿不光咱们中国要重视，全世界的AI行业都有这个通病。大家得加大合作力度把数据治理水平提上去。