中文数据占比超60% ，智能技术能不能用好？

人工智能发展要靠数据支撑。现在大家都知道，智能技术能不能用好，主要看手里有没有好的数据。之前我们在训练模型的时候，数据来源太单一，很多时候还得看国外的数据，特别是那些专业领域，中文资料太少，这严重拖了本土创新的后腿。但这两年情况不一样了，国内主流模型用的中文数据占比都超过了60%，有些领域甚至达到了80%以上。这不仅是数量多了，质量和结构也更好了，说明咱们正进入靠自己的数据搞研发的新阶段。中文数据占比能这么高，主要是因为各方都在使劲推。国家政策上支持力度大，像《“数据要素×”三年行动计划（2024—2026年）》，就专门说了要弄好训练数据集。各地建数据标注基地也帮了大忙，让中文数据能标准化、大规模生产。技术上也有突破，针对中文“一词多义”这种特点，现在有了语义标注系统能自动区分“打毛衣”和“打电话”，标注成本低了，效率高了。中文数据多了好处也多。第一是能让智能模型更懂咱们的说话习惯和文化意思，像在医疗、法律里能不能理解“上火”、“行政复议”这些词，直接关系到服务行不行。第二是能降低对外界的依赖风险，自己的数据自己说了算，安全更有保障。第三是把诗词典故这些文化都装进了模型里，方便了传统文化的传播和创新。为了让这股好势头继续下去，咱们得从几方面多管齐下。收集数据时要管好互联网的公开信息，建几个跨领域的大语料库；标注的时候要推行业标准，让医院、学校这些专业人士来帮忙审核；还要通过产学研合作突破技术难关。以后的数据建设会更看重“量质并重、场景驱动”。随着教育、医疗、政务这些地方越来越数字化，大家对垂直场景的中文数据需求会越来越大。只要把公共数据的生态建好，咱们就能在智能技术上形成自己的特色优势，为经济社会发展添动力。中文数据既是技术的营养基，也是文化的数字载体。它占比提升了，说明咱们正在从数据应用大国变成数据创新强国。咱们要扎根本土看未来，把数据建设持续做好，这样智能技术就能更好地理解中国、服务中国，在全球竞争里走出一条属于自己的路子。