美团LongCat团队正式开源LongCat-Video-Avatar 1.5其自主研发的数字人视频生成模型,标志着该技术从开源领域最先进的(SOTA)研究水平迈向了具备实际商业落地能力的新阶段。此次开源的模型在多个核心技术模块上实现了显著升级:首先,音频编码器部分全面替换为Whisper-large架构,大幅提升了语音识别与语义理解的准确性;其次,团队构建了一套覆盖多样场景、高保真度的多场景训练数据体系,有效增强了模型在复杂真实环境中的泛化能力;此外,模型创新性地引入了逐帧级的GRPO(Group Relative Preference Optimization)偏好对齐机制,在关键指标如唇形与语音的高度同步性、面部动作的物理合理性、长时间视频生成的时序稳定性,以及多人交互场景下的自然协调性等方面均实现了全方位跃升。在推理效率方面,该模型采用DMD(Distillation with Multi-stage Diffusion)蒸馏策略,成功将原本复杂的扩散过程压缩至仅需8步即可完成高质量视频生成,整体推理速度相较此前方案提升约15倍,显著降低了部署成本并提升了用户体验。
客服热线:










