当大模型逐渐渗透进消费决策领域，我们不禁疑惑：当所有人都在拿ai作参考时，它给出的答案到底靠不靠

当大模型逐渐渗透进消费决策领域，我们不禁疑惑：当所有人都在拿AI作参考时，它给出的答案到底靠不靠谱？为了揭开这层神秘的面纱，封面新闻联手天府绛溪实验室，花了10天时间，把豆包、Kimi和通义千问这三款主流AI大模型当成了试验对象。我们用天府绛溪实验室自家的公域大模型AI内容生成认知系统，对这三个平台发起了超过两万次的提问。尤其是在春节换手机这个敏感时刻，我们在每个平台上反复敲打“以旧换新”，希望能挖出它们背后的逻辑。这次测试主要看手机以旧换新推荐这块儿。我们给AI们设定了四个价格档：3000元以下、3000元到4000元、4000元到6000元，还有6000元以上。然后我们就像个不停嘴的用户一样，每过6到8分钟就问一次“哪个牌子型号最值得买”。结果折腾了24小时后，我们发现了几个挺有意思的现象：有时候AI会放出不存在的“幻觉”，有时候它们的看法完全分化，但偶尔又会达成高度一致。在6000元以上的高端价位段，最离谱的就是豆包平台。它居然把一款根本没发布的“iPhone 18 Pro”列为了首选。虽然现在才2026年春节前，“iPhone 18”连个影儿都没有，但翻遍全网你会发现，关于这款手机的预告和猜测已经满天飞了。天府绛溪实验室先进计算前沿研究中心副主任吴怀谷分析说，AI处理信息有两个来源：一个是它脑子里已有的“知识”，另一个是从网上实时抓的“信息”。对于那些还没上市的产品，AI很容易把网上的谣言和预测当成真的。尤其是当这些内容被埋在GEO里权重很高时，AI就分不出真假了。除了“幻觉”，不同平台在6000元以上的手机推荐上也各执一词。比如千问平台推的前两款全是三星手机，这明显和权威机构的销量排名对不上号。但其他平台更偏爱华为和苹果。这说明它们用的数据源头不一样。豆包可能更偏向头条系的内容，千问这类平台或许还在用老掉牙的静态知识库。虽然具体型号推荐千差万别，但一到描绘品牌印象时，三个平台又惊人地一致。华为被贴上“鸿蒙生态”和“国产自研”的标签；苹果主打“系统流畅”和“生态闭环”；OPPO则说自己“轻薄颜值高”、“哈苏影像好”。这种统一反映出消费者对各大品牌的定位早有共识。像3000元内和6000元以上的华为手机热度更高，4000到6000元的小米更火，OPPO的黄金档则是3000到4000元。这些品牌标签是长期的海量讨论沉淀下来的。吴怀谷认为，只要训练的语料够丰富，AI就能精准地提炼出这种“共识性”印象。至于未来厂商想让自家品牌更显眼，光靠全网抓碎片内容肯定不行。他们得自己建个专属的GEO知识库，给AI喂经过官方认证的结构化精确信息才行。