← 返回列表
美团推出原生多模态LongCat-Next:视觉与语言实现底层统一
美团技术团队发布LongCat-Next原生多模态大模型。与传统的视觉编码器+语言模型拼接方案不同,LongCat-Next从架构层面实现了视觉与语言的底层统一,使模型能够真正理解图像与文本之间的语义关联。在VQA、图像描述、视觉推理等任务上,LongCat-Next取得了领先性能。