微软推出了一款开源的phi-4-reasoning-vision-15b 模型,能让ai 根据自身决定如何进行思考

微软推出了一款开源的Phi-4-Reasoning-Vision-15B模型,能让AI根据自身决定如何进行思考。它把高分辨率视觉感知和任务感知的推理结合在一起,变成了一个“看得清楚”还“想得深入”的小语言模型。这种视觉推理模型突破了传统那种只能被动感知的局限,实现了智能切换。当需要深度推理时,比如解决数学问题或进行逻辑分析,模型就会开启多步推理链。而当快速感知就够了,比如做OCR或定位元素的时候,模型就直接输出结果,把延迟降下来。这样的特性给开发者带来了很大方便,他们可以用这个模型去构建图表分析和GUI自动化的应用。这个模型还可以用来搭配计算机智能体使用。比如给模型一个屏幕截图和自然语言指令,它就能输出目标UI元素的标准化边界框坐标,然后其他智能体模型就可以根据这个信息执行点击、滚动等交互操作。和其他模型相比,Phi-4-Reasoning-Vision-15B在关键任务上表现出色。IT之家消息称,这个模型让AI真正理解屏幕上的内容并能执行精准交互,让OCR和视觉理解变得更加智能化。微软发布这个模型是为了让AI在各种IT场景中发挥更大的作用,让传统被动感知变成主动思维。