导语

"320亿参数硬刚6700亿大模型,成本只要1/10!阿里刚刚发布的QwQ-32B,正在用一套'小快灵'拳法,把全球AI竞赛带进新次元——"

模型效果

QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

官方测试评估如下:

一、参数少≠能力弱!数学代码双杀DeepSeek

► 灵魂拷问:
"32层小别墅 vs 671层摩天大楼,盖楼比赛谁会赢?阿里说:我拆了承重墙!"

► 暴力拆解:
数学脑力: 解国际奥赛题83.9分 vs DeepSeek 83.3分
代码手速: LiveCodeBench准确率79.5 vs 79.8

► 技术人爽点:
"最骚的是这模型能边做题边调用计算器!像极了学霸考试时偷偷用草稿纸验算"

二、成本砍到脚踝!消费显卡跑AGI

► 价格暴击:
"单次推理成本0.25 vs DeepSeek 2.5,直接省出一杯星巴克!"

► 硬件革命:
"24GB显卡就能跑!你的游戏本突然成了AI实验室"

► 技术梗植入:
"苹果M4芯片实测:跑模型时还能剪4K视频!库克连夜改PPT"

三、阿里黑科技:强化学习の独孤九剑

► 两步走秘籍:

  1. 专精特训: 用代码执行器当"AI教练",实时反馈比人类快100倍
  2. 综合修炼: 引入通用奖励模型,拒绝"偏科生"

► 技术宅彩蛋:
"关键突破:放弃MoE选择Dense架构!相当于用'降龙十八掌'正面刚'少林七十二绝技'"

四、开源核弹:10万开发者集体狂欢

► 生态爆炸:
"现在连养猫小程序都在用QwQ写代码..."

► 行业冲击波:
"金融圈炸锅:银行能用游戏电脑跑风控模型了!"

结尾

"这波操作最可怕的是什么?
当所有人都在卷万亿参数时,中国团队用1/21的规模实现超越。
这或许预示着一个新时代:AGI,未必需要超级算力霸权。"

首发网站

https://www.fengyege.top/

在线体验

https://chat.qwen.ai
https://huggingface.co/spaces/Qwen/QwQ-32B-Demo

参考链接

[1] https://qwenlm.github.io/zh/blog/qwq-32b/
[2] https://x.com/Alibaba_Qwen/status/1897366093376991515