这次研究揭示了一个非常有趣的数据,到2024年3月,我国日均Token调用量已经超过140万亿词元,比2024年初增长了1000多倍。这个数据充分表明中国的AI发展已经进入了快速增长阶段。作为国家数据专家咨询委员会的成员,北京交通大学教授张向宏就这个问题进行了解读。这次的平均词元调用量超140万亿说明什么呢?张向宏指出,“词元”是一个新的概念。AI大模型在全球出现仅五年时间,“词元”这个词在世界范围内也才出现不到一年,中文名字更是不到半年。目前对“词元”的理解还在探索阶段。张向宏认为,“词元”可以从两个角度来看。上游是高质量数据集,再往前是数据资源。下游则是智能体和AI大模型,这些应用已经渗透到个人、企业的生活中了。从这个角度来说,“词元”是构成智能体和AI大模型的最小单元,就像一块块积木一样构建出应用场景。从长远来看,“词元”会发展成类似电和自来水的随取随用模式。 这次的平均词元调用量超140万亿也引发了人们对于AI应用场景的关注。张向宏表示,人工智能的最终生命力体现在应用上。如果不能和社会经济深度绑定、融合的话,人工智能就没有生命力。国家也出台了很多政策来推动这一进程。然而目前来看,在办公、场景方面的应用还比较浅层。下一步应该把这种应用深入到各行各业中去。就好比金融、商贸流通等领域中的生产流程、市场营销和供应链管理环节与AI深度融合一样。随着时间推移,这种深度融合会越来越广泛。 这次的平均词元调用量超140万亿还揭示了高质量数据集建设面临的挑战。张向宏指出了三个方面的挑战:数据安全、算力和技术迭代。首先是数据安全问题,现在高质量数据集给我们生活带来了便利,但是如果安全性得不到保障,就可能导致隐私泄露等问题;其次是算力问题,GPU和电力都是算力瓶颈;最后是技术迭代问题,虽然现在大模型企业发展得很快,但是离政府、企业和个人的实际需求还有一定差距。这次的研究也给我们带来了很多启示。超1000亿、140万亿这个数据不仅仅是数字的堆积,更是对中国人工智能发展前景的展望和挑战。