客服热线:17603274134/13955533956

美团开源数字人视频模型 LongCat-Video-Avatar 1.5

   2026-05-23 5 0
核心提示:美团LongCat团队正式开源LongCat-Video-Avatar 1.5其自主研发的数字人视频生成模型,标志着该技术从开源领域最先进的(SOTA)研究水平迈向了具备实际商业落地能力的新阶段。此次开源的模型在多个核心技术模块上实现

美团LongCat团队正式开源LongCat-Video-Avatar 1.5其自主研发的数字人视频生成模型,标志着该技术从开源领域最先进的(SOTA)研究水平迈向了具备实际商业落地能力的新阶段。此次开源的模型在多个核心技术模块上实现了显著升级:首先,音频编码器部分全面替换为Whisper-large架构,大幅提升了语音识别与语义理解的准确性;其次,团队构建了一套覆盖多样场景、高保真度的多场景训练数据体系,有效增强了模型在复杂真实环境中的泛化能力;此外,模型创新性地引入了逐帧级的GRPO(Group Relative Preference Optimization)偏好对齐机制,在关键指标如唇形与语音的高度同步性、面部动作的物理合理性、长时间视频生成的时序稳定性,以及多人交互场景下的自然协调性等方面均实现了全方位跃升。在推理效率方面,该模型采用DMD(Distillation with Multi-stage Diffusion)蒸馏策略,成功将原本复杂的扩散过程压缩至仅需8步即可完成高质量视频生成,整体推理速度相较此前方案提升约15倍,显著降低了部署成本并提升了用户体验。


(责任编辑:小编)
下一篇:

阿里生产级 AI 数字员工平台 QoderWake 开启全球公测

上一篇:

智谱推出GLM-5.1高速版API,又创新记录

反对 0 举报 0 收藏 0 打赏 0 评论 0
免责声明
• 
本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们228559116@qq.com
0相关评论