ai-ready(ai就绪度) 数据集的量在变多质量也在变高

2025年底的中国,日均token调用量冲到了140万亿,刘烈宏说这可比2024年初翻了上千倍,相比去年100万亿的成绩,3个月又长了40%。 这个数字放在北京的国家数据局局长口中显得格外沉甸甸。截止到今年3月24日上午新闻发布会上的数据显示,全国已经弄出来超过10万个高质量数据集,体积加起来有890PB这么大,相当于中国国家图书馆那堆数字资源的310倍。 这事儿发生在国务院新闻办的一个发布会上,刘烈宏介绍说高质量数据集的建设工作这几个月成果挺显著。大家现在每天能用140万亿个词元来搞事情,说明中国的人工智能已经不是光会聊天那么简单了。 从2024年到现在的发展速度让人大跌眼镜,不仅是数据集的量在变多,质量也在变高。中国的AI-Ready(AI就绪度)数据积累多了以后,才能让那些能做决策执行的智能体跑起来。 数据要素的价值正慢慢释放出来,越来越多的企业把眼光放到了海外市场去。下一步他们打算协同各方搞新一轮的行动,目标是搞出技术好用、用着方便又有质量保证的数据集。 针对3月24日那套情况介绍里的说法,接下来要干的事儿主要有六块:先把基础打好,再给标注加把劲,把质量提上去;通过应用来赋能项目;还要做好管理和服务;最后就是把数据的价值给挖出来。 以后要是想让AI发展得更好,就得依靠高质量的数据集供给来支撑。等到2025年年底这些工作都做完之后,我们就能看到更多技术可行又实用便捷的AI-Ready(AI就绪度)产品出现了。