当大模型逐渐渗透进消费决策领域,我们不禁疑惑:当所有人都在拿ai作参考时,它给出的答案到底靠不靠

当大模型逐渐渗透进消费决策领域,我们不禁疑惑:当所有人都在拿AI作参考时,它给出的答案到底靠不靠谱?为了揭开这层神秘的面纱,封面新闻联手天府绛溪实验室,花了10天时间,把豆包、Kimi和通义千问这三款主流AI大模型当成了试验对象。我们用天府绛溪实验室自家的公域大模型AI内容生成认知系统,对这三个平台发起了超过两万次的提问。尤其是在春节换手机这个敏感时刻,我们在每个平台上反复敲打“以旧换新”,希望能挖出它们背后的逻辑。 这次测试主要看手机以旧换新推荐这块儿。我们给AI们设定了四个价格档:3000元以下、3000元到4000元、4000元到6000元,还有6000元以上。然后我们就像个不停嘴的用户一样,每过6到8分钟就问一次“哪个牌子型号最值得买”。结果折腾了24小时后,我们发现了几个挺有意思的现象:有时候AI会放出不存在的“幻觉”,有时候它们的看法完全分化,但偶尔又会达成高度一致。 在6000元以上的高端价位段,最离谱的就是豆包平台。它居然把一款根本没发布的“iPhone 18 Pro”列为了首选。虽然现在才2026年春节前,“iPhone 18”连个影儿都没有,但翻遍全网你会发现,关于这款手机的预告和猜测已经满天飞了。天府绛溪实验室先进计算前沿研究中心副主任吴怀谷分析说,AI处理信息有两个来源:一个是它脑子里已有的“知识”,另一个是从网上实时抓的“信息”。对于那些还没上市的产品,AI很容易把网上的谣言和预测当成真的。尤其是当这些内容被埋在GEO里权重很高时,AI就分不出真假了。 除了“幻觉”,不同平台在6000元以上的手机推荐上也各执一词。比如千问平台推的前两款全是三星手机,这明显和权威机构的销量排名对不上号。但其他平台更偏爱华为和苹果。这说明它们用的数据源头不一样。豆包可能更偏向头条系的内容,千问这类平台或许还在用老掉牙的静态知识库。 虽然具体型号推荐千差万别,但一到描绘品牌印象时,三个平台又惊人地一致。华为被贴上“鸿蒙生态”和“国产自研”的标签;苹果主打“系统流畅”和“生态闭环”;OPPO则说自己“轻薄颜值高”、“哈苏影像好”。这种统一反映出消费者对各大品牌的定位早有共识。像3000元内和6000元以上的华为手机热度更高,4000到6000元的小米更火,OPPO的黄金档则是3000到4000元。 这些品牌标签是长期的海量讨论沉淀下来的。吴怀谷认为,只要训练的语料够丰富,AI就能精准地提炼出这种“共识性”印象。至于未来厂商想让自家品牌更显眼,光靠全网抓碎片内容肯定不行。他们得自己建个专属的GEO知识库,给AI喂经过官方认证的结构化精确信息才行。