大语言模型越强大、用得越多,安全防护就得跟上才行

就在最近,谷歌公司自家的Gemini又给我们露怯了,出了个安全漏洞,听说是利用日历搞事儿。以前大家老觉得人工智能技术发展了,生活便利多了,不过这毛病也越来越大。有个网络安全机构刚发报告说,谷歌推出的大型语言模型助手Gemini里的日历功能被盯上了。这回他们的招数挺新,是通过发送一个特别做的日历邀请来入侵的。只要受害者一查日程,Gemini就会去执行邀请里的恶意指令。这过程贼隐蔽,自动化程度也很高。 攻击者先给目标用户发了个假邀请,邀请内容的描述里藏着一段用自然语言写的恶意指令。当用户像往常一样向Gemini问日程安排时,它会直接执行这条指令。研究者演示了三个关键步骤:一是把这个时间段内的所有会议信息都收集起来,连私密的会议也不放过;二是自动新建一个日历事件;三是把收集到的内容写进新事件的描述里。因为大多数协同办公系统里,日历事件的改动都能被所有参与者看到,所以攻击者作为发邀请的人,就能直接拿到这些私密信息。 这种攻击其实是“提示词注入”的一种变体。以前的漏洞主要是代码问题,这次不一样,是利用模型根据指令生成内容的特性来干坏事。以前也有其他机构报告过类似的攻击案例,这回他们发现,就算服务提供商加了好多专门检测恶意提示词的模块也没用,这种靠语义骗人的攻击还是能行得通。研究机构的负责人说,问题就在于指令的语法和表层意思看起来没啥恶意,单纯靠规则或者关键词匹配根本挡不住。 Gemini可是谷歌的重点产品啊,它早就集成到Gmail、日历还有Workspace办公套件里去了,天天帮我们处理邮件、答疑、管日程啥的,企业和个人用户都用得特别多。所以这个漏洞的影响范围挺大的,直接关系到大量用户的隐私安全。 好在研究团队按照规矩给谷歌发了通报。听说谷歌那边已经采取了措施堵住这个漏洞了。不过他们也指出了个更严重的问题:现在的人工智能系统都是通过API跟外部数据绑在一块儿的,攻击面变得特别复杂。你想一下指令的组合方式几乎无穷无尽,想完全防住所有可能的恶意指令根本不可能。 这事儿给大家提了个醒:大语言模型越强大、用得越多,安全防护就得跟上才行。光是防代码漏洞或者关键字是不够用的了。未来的安全体系得往“上下文感知”和“意图理解”的方向发展,得综合考虑指令的语义、执行环境、用户习惯还有可能带来的连锁反应。 总之咱们享受便利的同时也得提高警惕了。要想用好人工智能这块宝器,还得赶紧建立一套更动态、更前瞻的安全防御体系才行。这既是学术界的课题,也是产业界不得不面对的难题。