人工智能发展要靠数据支撑。现在大家都知道,智能技术能不能用好,主要看手里有没有好的数据。之前我们在训练模型的时候,数据来源太单一,很多时候还得看国外的数据,特别是那些专业领域,中文资料太少,这严重拖了本土创新的后腿。但这两年情况不一样了,国内主流模型用的中文数据占比都超过了60%,有些领域甚至达到了80%以上。这不仅是数量多了,质量和结构也更好了,说明咱们正进入靠自己的数据搞研发的新阶段。 中文数据占比能这么高,主要是因为各方都在使劲推。国家政策上支持力度大,像《“数据要素×”三年行动计划(2024—2026年)》,就专门说了要弄好训练数据集。各地建数据标注基地也帮了大忙,让中文数据能标准化、大规模生产。技术上也有突破,针对中文“一词多义”这种特点,现在有了语义标注系统能自动区分“打毛衣”和“打电话”,标注成本低了,效率高了。 中文数据多了好处也多。第一是能让智能模型更懂咱们的说话习惯和文化意思,像在医疗、法律里能不能理解“上火”、“行政复议”这些词,直接关系到服务行不行。第二是能降低对外界的依赖风险,自己的数据自己说了算,安全更有保障。第三是把诗词典故这些文化都装进了模型里,方便了传统文化的传播和创新。 为了让这股好势头继续下去,咱们得从几方面多管齐下。收集数据时要管好互联网的公开信息,建几个跨领域的大语料库;标注的时候要推行业标准,让医院、学校这些专业人士来帮忙审核;还要通过产学研合作突破技术难关。 以后的数据建设会更看重“量质并重、场景驱动”。随着教育、医疗、政务这些地方越来越数字化,大家对垂直场景的中文数据需求会越来越大。只要把公共数据的生态建好,咱们就能在智能技术上形成自己的特色优势,为经济社会发展添动力。中文数据既是技术的营养基,也是文化的数字载体。它占比提升了,说明咱们正在从数据应用大国变成数据创新强国。咱们要扎根本土看未来,把数据建设持续做好,这样智能技术就能更好地理解中国、服务中国,在全球竞争里走出一条属于自己的路子。