微软发布了phi-4-reasoning-vision-15b

把 AI 和 Vision 结合起来，微软发布了 Phi-4-Reasoning-Vision-15B 这个开源模型。这是个能自主思考的小语言模型，俗称 SLM。它不光看得清，还想得深，把高分辨率视觉感知和选择性的任务推理结合在了一起。以前的视觉模型就是被动识别一下画面里有啥，Phi-4-Reasoning-Vision-15B 更进一步，能执行多步骤的结构化推理。理解画面结构，再把它和上下文连上，最后给出个能操作的结论。开发者可以用它来做图表分析或者 GUI 自动化了。这个模型最关键的设计是混合推理行为。它能根据你给的提示自动切换模式。要是需要深度推理，比如算数学题或者做逻辑分析，它就启用多步推理链；如果快速感知一下就行了，比如 OCR 或者找个元素的位置，它就直接输出结果，减少延迟。这个模型搭配计算机智能体用特别合适。给它一张屏幕截图和自然语言指令，它就能输出目标 UI 元素的坐标框。其他的智能体模型拿到这个坐标框就能执行点击、滚动这些操作。大家可以去 Hugging Face 看看 Phi-4-Reasoning-Vision-15B 跟其他模型在关键任务上的表现对比。