枫夜求索阁

标签
视频理解

阿里深夜发布视觉推理模型QVQ-Max

阿里在深夜发布了视觉推理模型QVQ-Max，该模型具备细致观察、深入推理和灵活应用三大核心能力，能够识别和分析图片、图表、视频等非文字信息，并结合背景知识进行推理和创作。未来计划包括提升观察准确性、开发视觉Agent和优化多模态交互。

阿里开源Qwen2.5-Omni，7B参数完成看、听、说、写

阿里通义千问团队推出全球首个端到端开源全模态大模型Qwen2.5-Omni，支持文本、图像、音频、视频的实时交互与流式响应，仅7B参数即超越千亿级闭源模型性能。其创新Thinker-Talker架构和TMRoPE位置嵌入技术实现多模态同步处理，在语音生成、视频理解等任务中表现优异，并在OmniBench等评测中达到SOTA水平。