ai-ready(ai就绪度) 数据集的量在变多质量也在变高

2025年底的中国，日均token调用量冲到了140万亿，刘烈宏说这可比2024年初翻了上千倍，相比去年100万亿的成绩，3个月又长了40%。这个数字放在北京的国家数据局局长口中显得格外沉甸甸。截止到今年3月24日上午新闻发布会上的数据显示，全国已经弄出来超过10万个高质量数据集，体积加起来有890PB这么大，相当于中国国家图书馆那堆数字资源的310倍。这事儿发生在国务院新闻办的一个发布会上，刘烈宏介绍说高质量数据集的建设工作这几个月成果挺显著。大家现在每天能用140万亿个词元来搞事情，说明中国的人工智能已经不是光会聊天那么简单了。从2024年到现在的发展速度让人大跌眼镜，不仅是数据集的量在变多，质量也在变高。中国的AI-Ready(AI就绪度)数据积累多了以后，才能让那些能做决策执行的智能体跑起来。数据要素的价值正慢慢释放出来，越来越多的企业把眼光放到了海外市场去。下一步他们打算协同各方搞新一轮的行动，目标是搞出技术好用、用着方便又有质量保证的数据集。针对3月24日那套情况介绍里的说法，接下来要干的事儿主要有六块：先把基础打好，再给标注加把劲，把质量提上去；通过应用来赋能项目；还要做好管理和服务；最后就是把数据的价值给挖出来。以后要是想让AI发展得更好，就得依靠高质量的数据集供给来支撑。等到2025年年底这些工作都做完之后，我们就能看到更多技术可行又实用便捷的AI-Ready(AI就绪度)产品出现了。