1月18日,北京科技大学承办的2025年全国大学生计算机系统能力大赛暨第五届OceanBase数据库大赛顺利收官。这个比赛是教育部认定的A类竞赛,在五年里吸引了超1.1万名学生参与,覆盖了全国500多所高校,成了选拔数据库人才的大平台。今年的比赛把焦点放在了AI原生的应用场景上,这是跟以前不一样的地方。 决赛的时候,大家用的是国产的轻量级AI原生搜索数据库seekdb。组委会在这个基础上出了两道难题:一是让混合查询跑得更快,二是要求参赛者在同一个数据库内核里搭建一个多模态的RAG系统。这两道题特别考验学生的底层优化能力和系统整合能力。专家觉得,这两道题正好戳中了AI产业落地时遇到的真实难题。 现在大家都在盯着大模型、Agent和高端芯片,却容易忽略数据处理的“基石”——数据库软件。AI越发展,对数据库的要求就越高。大模型虽然厉害,但没有“记忆”,需要可靠的数据系统来管理上下文信息。所以高质量的数据供给变得越来越重要。 回想大数据时代,Hadoop曾经掀起过一场数据处理的革命。现在AI时代来了,数据量更大了,类型也多了起来,有文本、图像还有向量这种多模态的数据。特别是大模型和RAG技术落地之后,数据库面临着前所未有的挑战。它得同时支持语义理解、向量搜索和结构化过滤这些混合查询模式,还得满足强一致性和审计监管的需求。 以前那种把数据库和搜索引擎分开的旧方法已经不行了。比如说在金融客服里,要查“过去一周内VIP用户提交的关于支付失败的工单”,这种既查语义又带结构化条件的请求很常见。用老办法得来回同步数据和结果,不仅慢还容易出错。同样在做智能问答的时候,要是把向量检索和全文检索分开处理也会出问题。 面对这些新需求,全球的数据库产业都开始往AI方向转型了。国产厂商也没闲着,这次大赛用的seekdb就是OceanBase公司为了应对AI场景专门开发的。不过行业里也有人觉得现在的结合还不够深入。有观点说光靠向量搜索是不够的,真正的核心竞争力在于能不能同时处理向量、全文和结构化这几种混合查询场景。 尤其是在金融、医疗这些对安全要求特别高的领域,数据的来源和处理过程都得能追溯和审计。所以能原生支持混合负载、保证一致性和可追溯性的新一代AI原生数据库就成了保障产业安全发展的关键基础设施。 这次大赛把赛题定在AI原生数据库上,不仅是一次技术比拼,也是对基础软件人才培养方向的一次指引。在国家大力发展新质生产力的背景下,自主创新和迭代升级基础软件变得格外重要。只有从学生的代码开始夯实数字基础设施的底座,才能支撑起人工智能的浪潮,给经济社会高质量发展注入更稳固的力量。