微软推出了一款开源的phi-4-reasoning-vision-15b 模型，能让ai 根据自身决定如何进行思考

微软推出了一款开源的Phi-4-Reasoning-Vision-15B模型，能让AI根据自身决定如何进行思考。它把高分辨率视觉感知和任务感知的推理结合在一起，变成了一个“看得清楚”还“想得深入”的小语言模型。这种视觉推理模型突破了传统那种只能被动感知的局限，实现了智能切换。当需要深度推理时，比如解决数学问题或进行逻辑分析，模型就会开启多步推理链。而当快速感知就够了，比如做OCR或定位元素的时候，模型就直接输出结果，把延迟降下来。这样的特性给开发者带来了很大方便，他们可以用这个模型去构建图表分析和GUI自动化的应用。这个模型还可以用来搭配计算机智能体使用。比如给模型一个屏幕截图和自然语言指令，它就能输出目标UI元素的标准化边界框坐标，然后其他智能体模型就可以根据这个信息执行点击、滚动等交互操作。和其他模型相比，Phi-4-Reasoning-Vision-15B在关键任务上表现出色。IT之家消息称，这个模型让AI真正理解屏幕上的内容并能执行精准交互，让OCR和视觉理解变得更加智能化。微软发布这个模型是为了让AI在各种IT场景中发挥更大的作用，让传统被动感知变成主动思维。