阿里在深夜发布了视觉推理模型QVQ-Max,该模型具备细致观察、深入推理和灵活应用三大核心能力,能够识别和分析图片、图表、视频等非文字信息,并结合背景知识进行推理和创作。未来计划包括提升观察准确性、开发视觉Agent和优化多模态交互。