阿里深夜发布视觉推理模型QVQ-Max


阿里在深夜发布了视觉推理模型QVQ-Max,该模型具备细致观察、深入推理和灵活应用三大核心能力,能够识别和分析图片、图表、视频等非文字信息,并结合背景知识进行推理和创作。未来计划包括提升观察准确性、开发视觉Agent和优化多模态交互。

阿里开源Qwen2.5-Omni,7B参数完成看、听、说、写


阿里通义千问团队推出全球首个端到端开源全模态大模型Qwen2.5-Omni,支持文本、图像、音频、视频的实时交互与流式响应,仅7B参数即超越千亿级闭源模型性能。其创新Thinker-Talker架构和TMRoPE位置嵌入技术实现多模态同步处理,在语音生成、视频理解等任务中表现优异,并在OmniBench等评测中达到SOTA水平。