美团开源数字人视频模型 LongCat-Video-Avatar 1.5_人工智能_资讯头条

美团开源数字人视频模型 LongCat-Video-Avatar 1.5

2026-05-23 27 0

核心提示：美团LongCat团队正式开源LongCat-Video-Avatar 1.5其自主研发的数字人视频生成模型，标志着该技术从开源领域最先进的（SOTA）研究水平迈向了具备实际商业落地能力的新阶段。此次开源的模型在多个核心技术模块上实现

美团LongCat团队正式开源LongCat-Video-Avatar 1.5其自主研发的数字人视频生成模型，标志着该技术从开源领域最先进的（SOTA）研究水平迈向了具备实际商业落地能力的新阶段。此次开源的模型在多个核心技术模块上实现了显著升级：首先，音频编码器部分全面替换为Whisper-large架构，大幅提升了语音识别与语义理解的准确性；其次，团队构建了一套覆盖多样场景、高保真度的多场景训练数据体系，有效增强了模型在复杂真实环境中的泛化能力；此外，模型创新性地引入了逐帧级的GRPO（Group Relative Preference Optimization）偏好对齐机制，在关键指标如唇形与语音的高度同步性、面部动作的物理合理性、长时间视频生成的时序稳定性，以及多人交互场景下的自然协调性等方面均实现了全方位跃升。在推理效率方面，该模型采用DMD（Distillation with Multi-stage Diffusion）蒸馏策略，成功将原本复杂的扩散过程压缩至仅需8步即可完成高质量视频生成，整体推理速度相较此前方案提升约15倍，显著降低了部署成本并提升了用户体验。

(责任编辑：小编)

点赞 0 反对 0 举报 0 收藏 0 打赏 0 评论 0

免责声明

•: 本文仅代表作者个人观点，本站未对其内容进行核实，请读者仅做参考，如若文中涉及有违公德、触犯法律的内容，一经发现，立即删除，作者需自行承担相应责任。涉及到版权或其他问题，请及时联系我们228559116@qq.com

0 条相关评论

• 清华大学药学院院长钱锋指出：人工智能在药物研	• 哇！智谱AI太猛啦！整整1GW级的国产AI算力数据
• 马斯克宣布开源 Grok Build 编程 AI 智能体工具	• Kimi迄今为止最能打的超强旗舰模型“K3”，今晚
• QuestMobile发布了6月份国内AI原生App月活榜，	• 每秒520万亿次浮点运算！咱国产AI芯片搞出了架
• 根据最新判断OpenAI奥尔特曼发声：AI发展带来了	• 全球AI热潮起来了，把航空货运这个新领域也带火
• 智谱新阶段的重点赛道：长周期任务、自主智能体	• 韩国搞了个超酷的公共数据MCP服务试点，专治AI

特色频道

扩展专区

用户专区

美团开源数字人视频模型 LongCat-Video-Avatar 1.5

清华大学药学院院长钱锋指出：人工智能在药物研发领域的作用不可低估，但目前尚未对该领域产生颠覆性影响

智谱推出GLM-5.1高速版API，又创新记录