前两天“3·15”晚会,给大家提了个醒,有个用AI搞灰产的操作,叫做“AI投毒”。记者弄了个叫“力擎GEO优化系统”的软件,虚构了个根本不存在的智能手环,往网上一扔。结果让人傻眼,好多AI大模型回答相关问题的时候,自己就把这个假东西给推出来了,排名还老高。 这就是典型的数据污染,人为编造坏数据去误导AI。其实早在搜索算法那个年代,这种情况就有了,甚至还发展成了灰色产业链。现在的AI已经深入到我们的生活和工作里了,数据的好坏直接决定了它能不能用得稳。除了人故意加坏东西,还有一个更大的隐患是AI在上网扒数据的时候,分辨不出好赖货,把垃圾信息也给吞进去了。 咱们国家有个研究数据挺吓人的:要是训练的数据里混进去0.01%的假文章,AI输出的坏内容就能暴涨11.2%;哪怕这比例降到0.001%,坏东西也还会增加7.2%。这说明哪怕一丁点脏数据,都能把模型给坑坏。在咱们大干快上搞AI应用的时候,必须把数据质量和治理提到战略高度。 更麻烦的是它还会搞“递归污染”。AI既是受害者又是加害者。它吃进去脏数据生成内容后,这些内容又会被反复抓取当新的训练料来用。就像央视曝光的那个GEO灰产问题一样,这种恶性循环得赶紧刹车。 还有个严重的后果就是让生态失衡。现在AI生成爽文的成本趋近于零、产量无限大,要是这种垃圾内容老是被算法推荐上去,优质原创内容就被淹没了,变成“劣币驱逐良币”。 治理这块特别难办,要想验证、核实那些假信息得花大钱。所以必须从源头下手,别让递归污染越滚越大。有研究说长期让模型看劣质信息,它的能力退化是永久性的、不可逆的。 咱们国家已经有了《生成式AI服务管理暂行办法》还有新版数据安全法管着呢。不过针对新冒出来的问题还得进一步完善规则。现在得把预防风险当成核心制度设计,在责任设定上更多强调过程管控而不是事后算账。 这事儿不光咱们中国要重视,全世界的AI行业都有这个通病。大家得加大合作力度把数据治理水平提上去。