← 返回列表

美团推出原生多模态LongCat-Next：视觉与语音实现底层统一

发布日期：2026-04-05 来源：AIBase 阅读：34

月之暗面发布LongCat-Next原生多模态模型

AI创业公司月之暗面（Moonshot AI）正式发布LongCat-Next原生多模态大模型，实现了文本、图像和视频的底层统一处理。这一技术突破被认为是多模态AI发展的重要里程碑。

技术突破

与传统多模态模型不同，LongCat-Next采用端到端的统一架构：所有模态数据在模型底层进行统一表示；无需单独的编码器/解码器转换；支持任意模态之间的无缝转换和理解；跨模态推理能力显著增强。

核心能力

图文理解：精准理解图像内容并生成详细描述
视频分析：理解长视频的时间序列信息
跨模态生成：文本生成图像、图像生成视频等
视觉问答：基于图像内容回答复杂问题

应用前景

LongCat-Next的发布将推动AI在更多场景的应用：智能客服可以理解用户发送的图片和视频；内容审核可以自动识别违规图像和视频；教育辅助可以分析学生的手写作业和实验视频；医疗诊断可以辅助分析医学影像。月之暗面作为成立仅两年的创业公司，能够在基础模型层面取得突破，显示出中国AI创业公司的技术实力。这一成果也将加剧国内大模型市场的竞争。

阅读原文