大家好,我是贾磊,来自百度应用模型研发部。最近,我们的同事吴甜,作为深度学习技术及应用国家工程研究中心的副主任,在这次大会上宣布了个大新闻,百度集团正式推出了文心大模型5.0(ERNIE 5.0)。这次我们真的把我国人工智能的技术带到了一个新高度,这2.4万亿的参数规模让人眼前一亮。 大家都知道,现在全球AI竞争特别激烈,大模型是大家都在抢的关键领域。咱们坚持自主创新,这次的突破可不小。文心5.0用了个很厉害的技术叫原生全模态,这和以前那些拼接、转译的方式可不一样。吴甜说过,咱们这次“拒绝拼接”,“告别转译”。大家现在在模型里面就能把文本、图像、视频、音频这些乱七八糟的数据全都揉在一块儿训。 这就好比给模型装上了一个统一的脑子,不再是东拼西凑的那种感觉了。这样做的好处是啥?能让模型更懂世界的运行逻辑。你看演示的时候,给它一段手机操作视频,它不光能说说看的是什么,还能把交互流程都写出来,最后甚至能给你生成代码。这种深度理解能力,以前真没见过。 当然了,参数这么大,2.4万亿的规模肯定会给推理带来压力。咱们通过MoE结构和超稀疏激活技术解决了这个难题。“每次任务只激活不到3%的参数”,这招可太聪明了!就像一个大专家团队一样,遇到问题时只需要派少数几个相关专家出来干活就行了。这样既保持了顶尖的性能,又把成本给压下来了。 技术突破是第一步,更重要的是能不能解决实际问题。贾磊强调过,“应用模型的价值不在模型里”,而是在怎么用。所以我们搞了个分层体系:通用的矩阵模型能快速普及基础能力;垂直行业的专精模型则能深入业务逻辑给定制化方案。比如说在电商或者营销领域用得特别顺手。 还有一个很有意思的测试是让模型以《红楼梦》里王熙凤的口吻写商业方案。你猜怎么着?它写出来的既像古典文学里的人物风格,又符合现代商业文案的逻辑要求!这对文化细微差别的把握能力太强了。还有数字人技术上的创新,比如“三态Token联动架构”,让数字人的表情、动作、语音能流畅地联动起来。 文心大模型5.0的发布真是个大喜事!它不仅是技术上的突破——采用原生全模态这种方式——更展示了我们在前沿探索中的决心和智慧。咱们围绕应用效率和产业价值搭建的体系也很务实:让人工智能从技术演示走向大规模工业化应用。 咱们现在的情况挺好的:有丰富的应用场景、海量的数据资源还有好的创新环境。以文心大模型为代表的这些技术突破一直在给咱们的底座打基础。未来咱们得继续加强基础理论研究,突破关键核心技术,把人工智能和实体经济更深地融合在一起才行。这样才能在这场关乎未来的科技浪潮中把握主动权。