西风 梦晨 发自 凹非寺, v, r2 ]4 k) _9 s
量子位 | 公众号 QbitAI
+ [ }2 w. C& w9 Q/ L 昨晚,杭州大模型又双叒不睡,给大伙儿 拜 年 啦~ / e3 J9 H* w5 E# t' N
就在春晚直播进行时,阿里通义Qwen发布新春节礼第三弹: " l2 W5 M4 j" e+ s1 B
Qwen2.5-Max来袭,多个基准测试中超越当红炸子鸡DeepSeek V3。
7 f. `2 v6 q" m4 t) b0 X
+ v( m: @2 h( @/ ] ^& \5 W9 y
4 G! Z1 L$ L( D) mArena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond等基准统统拿下,Qwen2.5-Max整体表现优于DeepSeek V3、Llama-3.1-405B以及闭源模型GPT-4o,和Claude-3.5-Sonnet也能比一比。 5 L" C% X% H4 [) a6 F3 \
+ p k/ j' A6 [* ?9 k4 H6 H7 C7 T
4 T( k, O* F3 ^* N3 ]* V基座模型对比中,Qwen2.5-Max同样超越DeepSeek V3、Llama-3.1-405B,在针对模型知识理解和推理能力的MMLU-Pro等基准上均表现不凡。
) O8 v. @ ]* p/ A+ C: h1 y; W
$ r' C3 X* A/ J) Y, ^9 d
9 }# q0 w: S' A( A更令AI社区关注的是,Qwen2.5-Max同DeepSeek V3一样是超大规模的MoE模型,经超20万亿token的预训练数据及精心设计SFT+RLHF后训练方案训练而成。
# t2 B! V/ ^# _" J7 `$ ?
+ B L/ o+ H9 t; |* b% u1 u. R& ?- \' t" L9 X7 f
Qwen2.5-Max这份春节礼包被网友们齐刷刷收入囊中。前有DeepSeek,还有阿里通义Qwen,网友们不忘艾特奥特曼:
( ?. {0 |. O% @# b7 k0 _. H祝大家新年快乐,特别祝Sam。
2 x/ ~# \- p' w& E; a+ F
: @4 X( \% ~9 j& Z. P& ~. r) O& u9 L: f+ L) }# Q& L" _
阿里研究员在模型发布后也都还不睡,纷纷当起了自个儿的自来水。
. i! C8 Y2 R1 c8 j8 k( y阿里高级算法专家林俊旸开麦: * U" ]$ C8 c' X% S @6 W
Qwen2.5-Max在基准测试中表现良好,希望大家可以试试看,新年快乐!/ C4 p* A9 O: Y$ p( g( l
- o/ K: |/ o* c/ x* \/ R; f
8 h3 U+ P1 b4 \4 k( U* p
之前曾自曝阿里大模型员工996作息表的Binyuan Hui也再次现身: 5 n4 v6 c. \, W7 I0 q3 Z
外面的烟花照亮了天空,我却坐在电脑跟前。
( ~8 ?) k/ h+ d( ?+ V F7 ~4 D 3 U8 s* |' p: S5 ^
+ ?+ [! r* ~5 \/ f0 ~3 E, \6 V# z$ U
多模态能力展示/ x9 @, z: |1 _- S% [# P
! J8 v Y; c2 @0 H8 F% Z4 j下面是Qwen2.5-Max在四个使用场景上的演示。
2 [$ n; E& y z8 X" J* c+ c首先是联网搜索功能,输出的每句话来源出处都有标注,整体运行也很丝滑。 7 F, m+ |9 p( }. N
2 y' o1 U7 C- o0 J
- Q& ^7 K2 b! `代码能力上,Qwen2.5-Max能够帮助用户完成各种可视化创作,一句话就能做出下面这样旋转的球体: # n6 M* H7 ^& E! t( z
, T1 j" b( d* e% \
+ I! q( V5 w: s; Z
有网友改造了一下,让球体内部有三个弹跳的黄色小球。
6 y* X* W7 {0 I
: W% j( S5 Q0 W" Q
/ s3 O: `0 r! ~/ y8 P; z结果只尝试了一次就成功了,而且三个小球始终在大球内部运动,能正确处理碰撞: ( {9 d1 B, R: ]5 U
k5 y$ [- S5 C
* s2 N% A B# K4 f% w" _# N3 K8 K" c
Qwen2.5-Max也有 Artifacts功能,同样一句话,能开发各种小应用、小 游戏。
$ d4 q+ Y5 h, [5 k比如制作一个扫雷小游戏,秒秒钟“啪”一下直接就能玩: - ]* a0 _2 ?8 |4 Q; W; D. |4 }
5 [! @. M5 |3 L3 c/ C' p3 o9 `8 E/ F' P/ x7 U
另外Qwen2.5-Max数单词中的特定字母数量也不在话下。 ( T! Q+ e$ v- p2 Z2 J* A6 }
, z& ^) W1 P" n+ z$ J3 \. C
! @6 O5 p0 c& d" u; N0 k现在,Qwen2.5-Max已在Qwen Chat中上线。 ( C# N( H; c5 }- Z6 Q
此外也有Hugging Face的Demo可玩,还上线了Any Chat,并且可通过阿里云服务使用API。
5 @1 B: _' `) O% y7 R) y7 u) K s% h6 H2 j' f( m& w+ _0 D
6 b) f6 E1 [5 z7 ?0 u" ~
: T) g* s% M& G, x
参考链接:! ^, {! G, ~" ]& d
[1]https://qwenlm.github.io/blog/qwen2.5-max/3 y' J: h$ v- i; S7 Q: j- \/ i
[2]https://x.com/JustinLin610/status/18842638034514987947 p$ d& ?4 G! [$ Y/ q3 t
[3]https://x.com/_akhaliq/status/1884278071093502253
6 h/ K1 c$ m9 Q# J D! j[4]https://x.com/huybery/status/1884263539675934860 + c' J* ~# }! y0 p4 l7 I. @$ O; q
— 完 —
# d' B1 z2 H+ k5 Y( u9 d& v. ]量子位 QbitAI · 头条号签约) v7 u3 i7 f7 K) y+ z2 }7 S
关注我们,第一时间获知前沿科技动态 |