谷歌昨晚搞了个大新闻,这次新出的Gemini 3.1 Flash Live直接把语音AI的体验给颠覆了。以前跟AI说话总觉得隔着层肚皮,现在就像在跟真人聊天一样自然。这个模型不光说话顺溜,还覆盖了200多个国家和地区,不管是你在家搞开发、企业搞服务还是平时想用用,都能用得上。核心点就是它的响应速度比以前快了不少,还能听出你是高兴还是烦躁,回复再也不会冷冰冰的。比如你想组装家具不会弄,直接问它就行,安装过程中还能随时交流。 这个模型对开发者来说绝对是个惊喜。它的推理能力很强,做个复杂任务简直不在话下。拿专业测试来说,它开启深度推理模式后能拿到90.8%的高分,比去年12月的71.5%和9月的66%强太多了。还有一个大型基准测试中它拿到了95.9%的分数,仅次于Step-AudioR1.1的实时模式。 除了性能强,它在实际场景里也很稳。在Scale AI的音频挑战赛中它拿到了36.1%的好成绩,把实时GPT1.5、通义千问3Omni30B和GPT-4o都甩在了后面。这个比赛特别考验模型在嘈杂环境下执行复杂指令的能力,能拿第一说明它很可靠。 不仅推理能力强,对语气的理解也有了大进步。如果察觉到你烦躁或者困惑,它会动态调整回应方式。像威瑞森、LiveKit、家得宝这些大公司已经在用这个模型做客服了,反馈都特别好。 谷歌这次直接把模型全渠道上线了。开发者可以在AI工作室的Gemini Live API里先玩起来;企业可以用谷歌的客户体验版;咱们普通人只要打开搜索实时交互或者Gemini实时交互功能就能体验新功能了。想系统学AI的核心技能?CAIE注册人工智能工程师认证能帮你拓宽职业赛道。