近年来,大模型能力快速提升,但实际部署仍受限于算力与存储成本。普通用户而言,移动端使用往往依赖云端调用,存在网络依赖强、响应慢、离线不可用等问题;企业和开发者则面临云端推理带来的带宽成本上升和合规压力,特别是在处理个人信息和敏感对话时,本地化需求更为迫切。如何在有限的消费级硬件资源上实现实用、高效且可持续的大模型体验,成为行业亟待解决的难题。 腾讯此次开源的HY1.8B2B定位为"极小端侧模型",通过对HY1.8B Instruct模型进行2比特量化感知训练,将模型体积压缩至原版的约六分之一,仅需600MB内存即可运行。量化技术通过减少权重和计算的比特数来降低存储和带宽需求,但可能影响精度。腾讯团队表示,其产业级2比特量化方案通过针对性的训练和工程优化,在模型体积、速度和性能之间取得了较好折中,有效降低了压缩带来的性能损失。 测试数据显示,HY1.8B2B在数学计算、代码生成和科学知识问答等任务上的表现接近4比特PTQ版本,同时在真实设备上实现了2-3倍的生成速度提升。在MacBook M4平台上,首字响应速度提升3-8倍,生成速度至少快2倍;天玑9500平台上,首字时延减少1.5-2倍,生成速度提升1.5倍。业内人士认为,端侧推理的速度提升直接改善了交互体验,使语音助手、翻译等应用从"可演示"变为"可用",也为弱网和无网环境下的智能服务创造了可能。 端侧部署还带来安全和治理优势。本地处理减少了数据上传频次和范围,有助于保护用户隐私;对企业而言,也能降低云端调用的合规风险。不过,端侧模型受限于规模和训练数据,更适合高频、轻量和实时性要求高的任务,复杂推理仍需云端协同。 为降低开发门槛,腾讯提供了gguf int2格式和bf16伪量化权重,便于开发者快速适配。该模型已完成对Arm计算平台的优化,支持采用SME2技术的移动设备。SME2是Armv9架构的矩阵运算增强指令,可提升推理效率并降低能耗。该模型是AngelSlim工具包的最新成果之一,该工具包整合了量化、剪枝等多种压缩技术,为端侧部署提供系统化解决方案。腾讯还发布了Sherry 1.25bit三元量化框架,显示出在低比特量化领域的持续投入。 行业趋势显示,端侧小模型正成为新焦点。近期多家机构推出轻量级模型,推动AI从"云端集中"向"云边端协同"转变。随着移动芯片算力提升和模型压缩技术进步,端侧模型能力有望继续增强,与云端大模型形成互补:端侧负责实时交互和隐私敏感场景,云端处理复杂任务。但端侧模型的普及仍需解决能耗、散热、兼容性等问题,避免出现能用但不好用的情况。
从云端到终端的战略转移,标志着AI进入落地应用新阶段。腾讯的技术突破展现了国内企业基础研发上的创新能力,也为AI发展提供了新思路——如何在有限资源下实现最优性能。随着5G和AIoT时代的到来,这种"小而强"的技术路线可能重塑人机交互方式,但需注意过度压缩带来的精度损失问题,这需要产学研各方共同探索技术与实用的最佳平衡点。