2025年阿里Qwen3开源来袭，解锁大模型新体验！

技术趋势行业动态 AI前沿

今天（2025年4月29日）凌晨，阿里巴巴开源了新一代通义千问Qwen3系列模型，这一消息如同一颗重磅炸弹，在大模型领域引起了轩然大波。Qwen3究竟有何魅力，能让大家如此关注？接下来，就让我们一起揭开它的神秘面纱。

一、Qwen3的强大实力

（一）性能卓越，超越顶尖模型

Qwen3在多项测评中表现优异，超越了DeepSeek-R1、OpenAI-o1等主流模型，成为当前性能领先的开源大语言模型。在奥数水平的AIME25测评中，Qwen3斩获81.5分，刷新了开源纪录；在考察代码能力的LiveCodeBench评测中，Qwen3突破70分大关，表现甚至超过Grok3；在评估模型人类偏好对齐的ArenaHard测评中，Qwen3以95.6分超越OpenAI-o1及DeepSeek-R1。

（二）参数优化，成本大幅降低

Qwen3采用混合专家（MoE）架构，旗舰模型Qwen3-235B-A22B总参数量235B（仅为DeepSeek-R1的1/3），激活参数仅需22B。其部署成本大幅下降，仅需4张H20即可部署Qwen3满血版，显存占用仅为性能相近模型的三分之一。而且，Qwen3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升，仅激活3B就能媲美上代Qwen2.5-32B模型性能；稠密模型性能也继续突破，一半的参数量可实现同样的高性能，如32B版本的Qwen3模型可跨级超越Qwen2.5-72B性能。

（三）多模式融合，节省算力消耗

Qwen3是国内首个“混合推理模型”，将“快思考”与“慢思考”集成进同一个模型。在“推理模式”下，模型会执行更多中间步骤，如分解问题、逐步推导、验证答案等，给出更深思熟虑的答案；而在“非推理模式”下，模型会直接生成答案。这种设计大大节省了算力消耗，就像人类在回答简单问题时凭经验或直觉快速作答，面对复杂难题时再深思熟虑。

（四）多语言支持，拓展国际应用

Qwen3模型支持119种语言和方言，涵盖了印欧语系、汉藏语系、亚非语系、南岛语系、德拉威语等多个语系的众多语种和方言。这一广泛的多语言能力为国际应用开辟了新的可能性，让全球用户都能受益于这些模型的强大功能。

（五）全尺寸覆盖，满足多样需求

Qwen3一口气发布了8款不同的模型版本，包含2款30B、235B的MoE模型，以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型，每款模型均斩获同尺寸开源模型SOTA（最佳性能）。不同尺寸的模型适用于不同的场景，例如0.6B和4B可以应用于手机，8B、30B、30B MOE可用于电脑，32B最受企业大规模部署欢迎，形成了从手机端到企业级的全场景覆盖。

二、Qwen3的技术突破

（一）数据规模翻倍，专业能力增强

Qwen3的预训练数据量从Qwen2.5的18万亿token扩展至36万亿token，新增119种语言及方言支持，涵盖PDF文档解析、STEM领域教材、代码片段等高质量数据。通过Qwen2.5-VL视觉模型辅助提取文档文本，结合Qwen2.5-Math与Qwen2.5-Coder合成数学及代码数据，模型在专业领域的理解能力显著增强。

（二）四阶段训练流程，强化推理与响应

通过“长思维链冷启动-强化学习-模式融合-通用优化”四阶段后训练，Qwen3实现推理能力与响应速度的深度整合。例如，30B参数的MoE模型Qwen3-30B-A3B仅激活3B参数，即可达到上代32B密集模型的性能。

（三）全场景适配，小模型跨级超越

6款密集模型中，4B参数的Qwen3-4B可媲美Qwen2.5-72B-Instruct适合手机端，8B模型支持汽车端和电脑端侧部署，32B模型收到企业大规模部署的欢迎，性能超越上一代72B模型，实现了小模型的跨级超越。

三、Qwen3实操样例

（一）本地部署Qwen3-32B模型（使用VLLM框架）

1. 环境准备

安装ModelScope库：

pip install modelscope

ModelScope是阿里云提供的模型开放平台，支持多种大模型的下载和部署。

创建Python虚拟环境：

conda create -n vllm_nightly python=3.11 -y
conda activate vllm_nightly

建议使用conda管理环境，确保Python版本与VLLM框架的兼容性（当前推荐3.11版本）。

2. 依赖安装

安装VLLM框架：

pip install vllm[audio] --pre --extra-index-url https://wheels.vllm.ai/nightly

VLLM是专为大模型优化的推理引擎，支持多GPU并行推理、高吞吐量，还支持音频处理（通过[audio]扩展）。

安装FlashAttention：

pip install flash-attn --no-build-isolation

FlashAttention是优化Transformer模型计算效率的关键组件，可显著提升推理速度。

更新Transformers库：

pip install git+https://github.com/huggingface/transformers -U

HuggingFace Transformers库提供完整的模型处理接口，确保与Qwen3-32B的兼容性。

3. 模型部署

下载Qwen3-32B模型：

modelscope download --model Qwen/Qwen3-32B --local_dir ./Qwen3-32B

该命令会将模型文件下载到当前目录的./Qwen3-32B文件夹中。注意模型文件体积较大（约62GB），建议使用SSD硬盘存储，需要保证网络连接稳定。

启动VLLM服务：

CUDA_VISIBLE_DEVICES=3,1,0,2 
VLLM_USE_V1=1 
VLLM_WORKER_MULTIPROC_METHOD=spawn 
TRANSFORMERS_OFFLINE=1 
HF_DATASETS_OFFLINE=1 
vllm serve /root/HuggingFaceCache/Qwen3-32B 
--trust-remote-code --served-model-name gpt-4o gpt-4 gpt-3.5-turbo o1 o1-mini o3-mini 
--gpu-memory-utilization 0.99 --tensor-parallel-size 4 
--port 8000 --api-key sk-123456 
--max-model-len 32768 
--disable-mm-preprocessor-cache 
--max-num-seqs 512

4. 验证服务

启动后可通过以下方式验证服务：

curl -X POST "http://localhost:8000/v1/chat/completions" 
  -H

（二）使用Qwen模型进行微调示例

1. 数据准备

微调前，数据的质量直接决定模型的最终表现。高质量的数据不仅包括正确标注，还包括覆盖目标任务的关键场景。需要去除重复和无效数据，保证数据标注一致性，覆盖多样化场景，避免模型过拟合。

2. 超参数选择

学习率：建议从较小值开始（如1e-5），逐步增大，观察loss变化。
batch size：对显存有限的用户，建议从16到32之间试探。
epoch：通常2-3轮即可，避免过拟合。

3. 选择合适的优化器

Qwen模型通常推荐使用AdamW，可以有效处理较大的参数空间。

4. 微调代码示例

from transformers import QwenForCausalLM, Trainer, TrainingArguments

# 加载预训练模型
model = QwenForCausalLM.from_pretrained("Qwen/model-name")

# 准备数据集
from datasets import load_dataset
dataset = load_dataset("your_dataset_name")

# 定义训练参数
training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=1e-5,
    per_device_train_batch_size=16,
    num_train_epochs=3,
    weight_decay=0.01,
)

# 定义Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset["train"],
    eval_dataset=dataset["validation"]
)

# 开始微调
trainer.train()

四、Qwen3的开源生态与未来展望

（一）开源生态再突破

阿里巴巴开源了Qwen3的全部8个模型版本，系列模型均采用宽松的Apache 2.0协议开源，全球开发者可在Hugging Face、ModelScope等平台免费下载商用。截至发布当日，Qwen3在GitHub星标数突破17k，刷新国内开源模型纪录。阿里同步推出Qwen-Agent框架，封装工具调用模板，降低智能体开发门槛，推动“模型即服务”生态落地。

（二）未来展望

阿里云智能首席技术官周靖人表示，“Qwen3的‘思考预算’控制机制，让模型能根据任务动态分配计算资源，这是迈向通用人工智能（AGI）的关键一步。”未来，阿里计划进一步扩展模型上下文长度至32K，探索多模态融合与长周期推理，推动大模型从“单一任务”向“复杂系统”进化。

总的来说，阿里Qwen3的开源为大模型领域带来了新的活力和机遇。它不仅在性能上表现卓越，而且在成本控制、多模式融合、多语言支持等方面都具有独特的优势。对于普通用户来说，无论是在学习、工作还是生活中，都可以借助Qwen3的强大能力，提高效率，解决问题。如果你还没有体验过Qwen3，不妨通过通义APP或者夸克浏览器，亲自感受一下它的魅力吧！

如果觉得文章对你有用，请随意赞赏

Qwen3 阿里巴巴开源大模型通义千问混合专家架构多语言支持本地部署模型微调 AI技术 AGI

2025年阿里Qwen3开源来袭，解锁大模型新体验！

https://www.fengyege.top/archives/96d8fced-2166-4cc2-a568-7f1502531025

作者

枫夜求索阁

发布于

2025-04-29

更新于

2025-04-29

许可协议

CC BY 4.0

2025年阿里Qwen3开源来袭，解锁大模型新体验！

一、Qwen3的强大实力

（一）性能卓越，超越顶尖模型

（二）参数优化，成本大幅降低

（三）多模式融合，节省算力消耗

（四）多语言支持，拓展国际应用

（五）全尺寸覆盖，满足多样需求

二、Qwen3的技术突破

（一）数据规模翻倍，专业能力增强

（二）四阶段训练流程，强化推理与响应

（三）全场景适配，小模型跨级超越

三、Qwen3实操样例

（一）本地部署Qwen3-32B模型（使用VLLM框架）

1. 环境准备

2. 依赖安装

3. 模型部署

4. 验证服务

（二）使用Qwen模型进行微调示例

1. 数据准备

2. 超参数选择

3. 选择合适的优化器

4. 微调代码示例

四、Qwen3的开源生态与未来展望

（一）开源生态再突破

（二）未来展望

作者

发布于

更新于

许可协议

评论