把 AI 和 Vision 结合起来,微软发布了 Phi-4-Reasoning-Vision-15B 这个开源模型。这是个能自主思考的小语言模型,俗称 SLM。它不光看得清,还想得深,把高分辨率视觉感知和选择性的任务推理结合在了一起。 以前的视觉模型就是被动识别一下画面里有啥,Phi-4-Reasoning-Vision-15B 更进一步,能执行多步骤的结构化推理。理解画面结构,再把它和上下文连上,最后给出个能操作的结论。开发者可以用它来做图表分析或者 GUI 自动化了。 这个模型最关键的设计是混合推理行为。它能根据你给的提示自动切换模式。要是需要深度推理,比如算数学题或者做逻辑分析,它就启用多步推理链;如果快速感知一下就行了,比如 OCR 或者找个元素的位置,它就直接输出结果,减少延迟。 这个模型搭配计算机智能体用特别合适。给它一张屏幕截图和自然语言指令,它就能输出目标 UI 元素的坐标框。其他的智能体模型拿到这个坐标框就能执行点击、滚动这些操作。 大家可以去 Hugging Face 看看 Phi-4-Reasoning-Vision-15B 跟其他模型在关键任务上的表现对比。