张向宏：“词元”是一个新概念

这次研究揭示了一个非常有趣的数据，到2024年3月，我国日均Token调用量已经超过140万亿词元，比2024年初增长了1000多倍。这个数据充分表明中国的AI发展已经进入了快速增长阶段。作为国家数据专家咨询委员会的成员，北京交通大学教授张向宏就这个问题进行了解读。这次的平均词元调用量超140万亿说明什么呢？张向宏指出，“词元”是一个新的概念。AI大模型在全球出现仅五年时间，“词元”这个词在世界范围内也才出现不到一年，中文名字更是不到半年。目前对“词元”的理解还在探索阶段。张向宏认为，“词元”可以从两个角度来看。上游是高质量数据集，再往前是数据资源。下游则是智能体和AI大模型，这些应用已经渗透到个人、企业的生活中了。从这个角度来说，“词元”是构成智能体和AI大模型的最小单元，就像一块块积木一样构建出应用场景。从长远来看，“词元”会发展成类似电和自来水的随取随用模式。这次的平均词元调用量超140万亿也引发了人们对于AI应用场景的关注。张向宏表示，人工智能的最终生命力体现在应用上。如果不能和社会经济深度绑定、融合的话，人工智能就没有生命力。国家也出台了很多政策来推动这一进程。然而目前来看，在办公、场景方面的应用还比较浅层。下一步应该把这种应用深入到各行各业中去。就好比金融、商贸流通等领域中的生产流程、市场营销和供应链管理环节与AI深度融合一样。随着时间推移，这种深度融合会越来越广泛。这次的平均词元调用量超140万亿还揭示了高质量数据集建设面临的挑战。张向宏指出了三个方面的挑战：数据安全、算力和技术迭代。首先是数据安全问题，现在高质量数据集给我们生活带来了便利，但是如果安全性得不到保障，就可能导致隐私泄露等问题；其次是算力问题，GPU和电力都是算力瓶颈；最后是技术迭代问题，虽然现在大模型企业发展得很快，但是离政府、企业和个人的实际需求还有一定差距。这次的研究也给我们带来了很多启示。超1000亿、140万亿这个数据不仅仅是数字的堆积，更是对中国人工智能发展前景的展望和挑战。