各位同学好,我是今天的主播,来给大家分享一个让人热血沸腾的消息!最新发布的实时数字人生成模型SoulX-FlashHead,在单卡RTX 4090上就能跑出惊人的96 FPS。有了它,以后大家在个人电脑上就能体验到工业级的视觉效果了。这款1.3B参数的轻量化模型,彻底解决了大家在实时数字人赛道上长期纠结的问题。到底是为了追求高画质而搞一套昂贵的H800集群,还是为了低成本忍受“面瘫”和画面崩坏?SoulX-FlashHead给出了完美的答案! 首先给大家看一组数据:在Lite版本下,单卡4090能跑96FPS,只需要6.4G显存,最高还支持3路并发。这就意味着普通人都能用游戏电脑搭建高保真直播间了!Pro版本虽然帧率低一些(16.8FPS),但把两张5090组个双卡就能做到实时(25fps+),而且FID和唇形同步得分直接冲到了SOTA级别。这相当于把“小模型没好画质”这个行业老大难问题给干翻了! 你可能要问,这个1.3B的小家伙是怎么做到“以小博大”的?咱们来看看背后的黑科技! 首先是个训练上的大招——双向蒸馏机制(Oracle-Guided Distillation)。大家都知道长视频生成时人物特征容易漂移,SoulX-FlashHead直接引入了“上帝视角”教师模型。它用Ground Truth数据来做强约束,就像给模型装了个校准器,不管视频拍多长,人物特征都稳如老狗。 接着是流式生成中的“嘴瓢”问题。为了不让口型和音频对不上号,SoulX-FlashHead强制模型缓存8秒历史音频特征。这个操作就叫时序音频上下文缓存(TACC)。有了这个8秒记忆,不管音频切片怎么变,嘴都不会瓢了! 当然,好的数据才是好模型的基础。Soul AI Lab自研的VividHead数据集也是下了血本的!他们从10,000多小时的素材里精挑细选了782小时的音画数据。光是筛选步骤就多到离谱:切分、DWpose关键点检测、唇形一致分数过滤……这一连串操作把数据集弄得特别纯净,绝对是给模型喂了“金坷垃”。 咱们再来看客观的评测结果吧!在HDTF和VFHQ这两个权威数据集上,SoulX-FlashHead简直是碾压式的胜利: 画质方面:Pro版本以8.31的FID和103.14的FVD刷新了纪录。视觉细腻度甚至比有些“大参数”模型还要强。 口型同步方面:面对野外复杂场景(VFHQ),它凭借独创的TACC策略拿到了5.60的高分。这就是真正的“稳”! 速度方面:Lite版本凭借1.3B的轻量化体量在RTX 4090上跑出了96 FPS的吞吐量。这可是近4倍于实时基准的25 FPS啊!推理效率更是甩开同类主流模型100倍不止! 现在SoulX-FlashHead已经正式开源了!去年1月Soul AI Lab开源了SoulX-FlashTalk实现了0.87s的超低延时和32FPS高帧率。这次SoulX-FlashHead把高保真技术彻底从“算力机房”解放到了“个人工作站”。大家的想象力有多丰富,应用场景就有多广泛: 电商主播:7x24小时直播矩阵随便搞。个人主播用一台游戏PC就能搭建高保真直播间。 游戏NPC引擎:1.3B的体量极易集成到游戏里。NPC能实现毫秒级响应,还不会抢显卡渲染资源。 在线外教:支持15种语言实时转换画面。以后再也不用对着呆板的PPT看了! 赶紧把这套好用的工具装进你的电脑吧!让咱们一起拥抱这场数字人技术的革命吧!