智谱ai出了个glm-5v-turbo的模型,给编程界又带来了新玩意儿

智谱AI这次出了个叫GLM-5V-Turbo的模型,给编程界又带来了新玩意儿。这个东西专门针对视觉编程设计的,最厉害的是能直接看懂设计稿和网页截图。以前搞AI编程都得写代码输进去,现在有了这模型,开发者直接上传草图或截图就行。 模型内置的那个GLM系列可好了,能理解200k这么长的上下文。这就让它不光能认出网站布局,还能把配色方案、组件层级、甚至那些细微的交互逻辑给搞清楚。测试的时候表现特别棒,把设计稿变成代码效率高多了。 这个模型还给智谱的AutoClaw智能Agent赋能了,让它有了真正的视觉能力。就像人一样浏览网站,连股票图表这种复杂的数据都能看懂。他们还搞出个“股票分析师”功能,能从四个地方同时收集数据。厉害的是,60秒内就能理解市场趋势,输出那种带丰富图表的专业报告。 智谱是中国的一家人工智能公司,一直在弄新一代通用认知大模型。这次把AI Agent的感知管道从纯文本扩展到了视觉交互领域。有了这个能力,前端开发人员会方便很多,直接指示修改样式或者加个弹出窗口就能搞定。 以前OpenAI的GPT-4就有了多模态能力。不过话说回来,这技术发展太快了,伦理和安全方面的问题还得小心点看。像生成的代码质量安全问题、还有金融领域应用的监管这些都得注意。