他用29.4万美元,把一个世界级大模型送上了《自然》封面,还是全球首个通过同行评审的主流大语言模型. h% n( B, v$ K$ C
/ s7 V8 M% z$ Q; C* v0 V
第一次听到这个数字,我是愣了一下的% a W0 M8 @! u6 H6 t ?' t
. _7 S' W+ d) n. |( J6 s( T& B7 h/ x+ x9 _5 K# b
% E& g& c- C4 i4 {( f& F
不是因为便宜,而是因为它逆着行业共识走. @) r# @: b1 V5 B
" g4 P2 \, t( h
外界对ChatGPT-4o的训练成本估算在7800万到1亿美元之间,DeepSeek-R1却只花了不到三十万1 @4 @5 b6 J4 n* [! |
: d" s; W4 A* R5 d3 A* O6 [
这一刀,直接砍在“只有高投入才有高产出”的旧规则上
3 {6 q! u+ t- J/ f0 a- c z7 t5 l) R' ]6 H0 p
你要知道,梁文锋并不是从AI圈起步0 X) {0 i% T8 l
( B# V0 p. Y2 o- \$ u7 T0 {( S8 Z9 C' k
他1985年生在广东湛江,17岁考入浙大,30岁创办幻方量化0 V+ n5 @5 k/ F# Q+ e
0 z% x2 N, R, j, {9 L8 Q
2015年的市场波动,幻方靠高频量化策略脱颖而出
' E- i9 o7 b& |! Z5 ^6 V3 G- j2 X+ _# J; L6 P# q4 Q0 G+ K
到了2016年,他拉起了首个基于深度学习的交易模型,随后自研“萤火一号”训练平台,砸下近2亿元,堆起了1100块GPU
$ L% K: W/ r3 d
1 }: a3 P( n: r# O/ M) E这不是只会省钱的人,相反,他在需要硬砸的时候从不手软7 A) E+ E+ ?& v( }
" ?. J0 U- L( F9 {# ]% C, Q
) @8 Z1 Y; ?+ Y# b3 m
4 ]: l. j! ~8 ~9 O2021年,幻方管理规模破千亿,他在金融圈已经是明星
) X5 T! L9 P% n- s! e7 N4 y* c+ ^0 ~2 N
很多人以为他会沿着熟悉的轨道继续前进9 L. {7 b- s1 n* {3 F" e+ d
7 l3 i7 k* f' v6 X- y9 ?& K他却在2023年7月拐了个急弯,成立深度求索,押注通用人工智能——他说,这是他的真正激情1 e4 Q- F0 T1 n% y; s( D
* V3 ]( J- r$ ~# P' V& R
真正的拐点发生在2024年底
6 M6 L) r5 ~. o8 }9 g2 h
: q( j) g# u- \- t4 B7 n; t3 X2 HDeepSeek-V3发布,训练成本557.6万美元,数学、代码、中文知识问答三项能力竟然压过了ChatGPT-4o
/ c* \) |7 a: D4 B4 l$ ?: [% v/ `1 o+ Z
如果你站在一个拥挤的AI会议厅里读到这条信息,周围那种短暂的安静你是能感到的,像空调突然停了电# M. ~9 Q, x9 u
' l* |4 l' R' M9 K
更刺眼的是,DeepSeek的研发团队只有139人,OpenAI超过1200人4 `" [7 U8 G2 L6 u0 `
+ m9 u- Z+ u$ J% j' Z一边是人海战术,一边是轻骑兵
$ c3 S6 T3 U+ y0 O% O4 O; L( o9 _
6 v& V8 A1 c' W
3 U, L6 r( D! b' Z! }0 J% b; ?3 t h- y4 \) Z
梁文锋并不喜欢高调,他说过一句话+ Z) h) b: k# v. m
: a; _% R- z5 ?: x. S“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼”
, [3 e6 Z/ e5 W9 D+ ?1 `
1 \) H! y8 j9 S% G这“鲶鱼效应”,并不是靠喊口号激起来的. B" A ?9 u l$ n
6 }5 C0 f$ o/ m" g% Q3 yDeepSeek选择了与“大水漫灌式”不同的路径——先用算法把数据总结、分层、净化,再喂给模型! h' f2 V8 |- U1 p' J
1 V! @* X4 }% Y ]! t& s
这像厨师先慢火熬汤,再下主料,而不是把冰箱全倒锅里
5 S" D9 O) i7 o# \; e& M1 c
x7 z0 Z3 A7 n8 u" }+ o我一直相信,效率不是在账面上做出来的,是在方法里
& M% x3 ?0 p2 H8 }# z) G& d1 L+ Y! N3 Y0 Z8 N" k
2025年1月,DeepSeek-R1亮相,数学、代码、自然语言推理上与OpenAI o1正式版比肩,还登上了中美苹果应用商店免费榜6 n$ M l, N4 g) J8 p; C6 F; v1 b2 s
* y+ W$ J8 E4 [+ M
真正让全球科研圈定睛的是9月0 ]6 i' X% }# W8 w
. s- F$ N& J- ~《自然》把他们的训练方法做了封面——“几乎所有主流大模型还没有经过独立同行评审,这一空白终于被DeepSeek打破”" C/ i& M) s; l( j8 {9 r
7 b$ W2 ?2 M0 C
8 W- b/ ^# B! h5 s7 p
1 Q9 t0 h3 Y, k0 r同行评审这件事,外界可能听起来枯燥,但它是科学共同体的底层信用
/ g1 g. e/ o+ g+ r
1 D6 u) `$ }+ [4 _8 r7 r a科学界的门槛不是营销,是可重复、可质疑、可验证7 L# n5 B3 o4 d8 p/ {
( C( H$ _$ F4 Q0 r" c! S
成本,还在往下打1 g3 b$ G4 I9 j0 V6 i1 F
! O6 U! t2 J# _( [/ v论文披露:构建基础LLM投入约600万美元,R1模型的训练成本仅29.4万美元
5 V$ S2 b& L8 d1 r/ }7 V+ z5 W; {5 R8 _. w3 o
如果你做过创业预算,能理解这种“节流”有多不现实——除非你在“算法”和“工程组织”上做了结构性创新4 t* k( Q# k Z8 |! _9 r Z( N
, {+ u* U) D. b3 A6 ?- RDeepSeek团队不大,但组织像一个精密的齿轮组,少磨损,高转速
@- S7 s! [2 P2 q' G1 ^& n! Y6 g; P6 B
更“离谱”的是他们选择开源+ a! N" L* ]; Y0 g: T( v6 A
* o" y9 q- O- B$ l梁文锋把R1的训练技术公开,还蒸馏了6个小模型给社区,研究员Yu Wu直言“我们致力于永久开源”
( v: K8 ], Z: W2 A1 V
; z6 J3 o4 ?9 r' s从商业视角看,这像把秘方写在店门口* a( ]8 y& q% H8 O8 j
$ B+ p7 `% k+ U) N7 ?2 ?8 e! s: Y& H
4 J. }! J4 q" T3 @+ i2 h; }+ J
( i- A1 l& I% Q$ e! u [但截至2025年9月,R1在HuggingFace上的下载量已经超过1090万次,全球开发者用脚投票, a0 G+ }# j9 s0 Y' k( H
$ I# d$ T+ G! D9 s2 n
开源不是无偿奉献,而是用生态位换势能
4 Y# q* R. X) @: s
% W; q) F5 W- Q" J8 P8 T ~7 p0 g8 L( r我一直觉得,技术的“势能”,有时比短期的“收益”更值钱+ |+ j$ ~7 ]* H' b; }: G/ l/ w+ B
% n' \$ F- }4 u6 a1 P
雷军在2025年3月说,小米过去五年研发投入约1050亿元,未来五年还要再投2000亿元1 }( ]3 [0 e& m; c4 ^- D% f: x
2 \+ A/ E* H6 E8 ]% l8 ?- s5 u8 V
这是一种能力,也是一种决心
9 x# \0 C0 Z" v/ A( V* U* m
9 [3 z' N+ {$ P& t2 M8 n. k: w而另一边,DeepSeek用不到30万美元做出世界级模型
; y) l/ k9 w) t# c$ V9 l# G
+ {' f; ^/ \. D ?3 Y+ _并不是谁对谁错% G X. I, u7 }9 }4 j3 Q3 Y) u! F
9 `. X! B# z A/ }% |/ f而是这两种路径共同提醒我们:创新不必只有一种打法
) a0 X! l. R% Q; w) L! z! ~4 a
! a, Z/ E, h+ `$ z0 b资源足的时候,走规模与硬件协同的路线没问题;. N$ G; |4 z8 ~# @" a1 \
9 g- S( r/ x% j2 ~+ H
( Q2 R) [( R" c' Y7 c G. |" F$ q% y$ T
% B1 c; }) c6 U6 U/ s0 ?) e! y2 e/ v, T资源有限的时候,走算法与效率优先,也能冲到前列
" b6 R1 k9 m8 ]- r& J9 R& g- a2 B: Y5 {' h% ~2 Y! | R6 Z/ x9 H" K" {9 q
行业需要的是“多解法”,不是“唯一答案”。
9 U& ?6 y) D/ Z. D: ~
$ H4 X& A4 B8 C( s9 t. w* T9 ]+ b' \关于挖角的故事也有传闻& B, y9 r6 B7 R. N. b* g5 p+ P
4 ~' F4 _& ?- @2 K- I' n坊间说雷军曾以千万年薪挖DeepSeek的95后研究员罗福莉,她最终在2025年11月加入了小米# V' j! D+ ?" P
2 Z1 ~( k. d. | d i5 f. A7 ]我更愿意把这看作人才双向选择的常态——
7 u5 G$ b9 u# W
5 B3 ~ f7 ?0 r: w有人留在追求技术理想的团队,有人去把技术落到更广阔的产品场景,都是好事! J1 v+ K) i5 m6 b
# T; q# d% E2 B
再说回技术本身,R1的新版本把幻觉率压低了45%到50%,AIME2025测试准确率从70%提高到87.5%
. q7 g( ?( E2 D5 q. K1 s9 @3 `
9 {, @) w" i# v2 I6 I这不是一次冲刺,而是耐心的迭代
! ^3 B" O5 t" A0 l( c# R
* \+ `! z- _8 H* w( ?8 Y我脑海里总会浮现一幅画面:深夜的白板上写满公式,机房的风像浪一样吹过,灯下有人敲键盘,杯子里咖啡已经凉了, i0 c4 Q% z% Q# t0 k& x$ h2 d
! ~1 z1 @9 [3 U" \, k
- m0 ?" S9 \2 a" y. ]4 F/ M2 }
# G' R: c! J9 d! h# d, u M0 B& Z真正的突破,常常发生在无数次“再试一次”之后
- u9 T g4 x) a6 V% \
3 }, }3 @# M+ q5 K. G到2025年,他入选《时代》全球最具影响力100人,又被《自然》评为年度十大人物,“科技颠覆者”* r& a6 o3 W4 Q$ P3 c
; x& h7 b( i& Y, u4 i6 b; U
名字被推到台前,但他手里拿的不是融资公告3 E$ z* ]" }. s
2 Y3 L3 y& I, u* L3 P8 Y而是一篇把“怎么以高效率做成难事”写得扎扎实实的论文* R( e* X! @- I z& v3 a; S
9 v1 _) f- X, |( z/ l+ f他还说过一句我很认同的话
' x1 d2 S4 T% L
: _4 P4 Y: _9 |$ V“DeepSeek象征着中国科技从‘模仿者’到‘创新者’的加速转型”9 G! X! r2 \: H' P$ h
8 u2 i$ i5 G, G% Y: b) X- h$ A5 S, F: q, |* _转型不只是做出新东西,更是在“怎么做”的思想上,往前迈了一步
! D5 Y, E% e: ~. [0 y, ?) A: g M- ]5 w& @2 l
从2013年幻方起步,到2016年深度学习交易模型,再到2023年创立DeepSeek、2024年底V3亮相、2025年R1登封,时间线拉直以后,你会发现他做的是一件事:5 u. e, a, E+ t7 x0 q& |
& v& r! B6 T8 a; K: r" F L
: b9 D3 y- S% f# N6 u' F8 c
( f+ n8 [1 @$ ? d/ c* }+ }在“算力、算法、组织”的三角里,把效率拉满
7 f6 A" {0 m0 V( @' E; r. L; B# c
* G/ ? ~* D2 v这套组合拳,最后打到的是行业的成本曲线、协作方式和认知边界$ x$ D; T R! i
6 j3 f2 U/ W7 n6 e有人问,这条路值不值?7 N `$ d; `: g/ s! O, d
0 W9 ?' H* x8 W2 O2 P梁文锋的回答很清醒:如果一定要找一个商业上的理由,它可能是找不到的,因为划不来
) \4 D% k4 s4 F( @/ R) O7 q6 L7 Y: [3 L4 _3 O! X1 v4 K' u
但他依然选择开源与共享
7 i) Y5 K. `: Y( F) v8 G3 @
! f4 N0 y; Y% Y3 _! Q/ x我理解为一种长线信念——当更多人站在同一块基座上,塔可以盖得更高
' D9 Q; |; H& N2 H* B; s6 m" J# ^3 ^+ s7 o
商业上能不能快速变现,未必是第一优先; V" W0 s9 u) h# G$ d
3 Z N" l7 I: P; W* T2 O
当技术的公共底座更稳,后来者就能更快地创新,生态的总产出也会更大
0 e' x* h! @$ N! T! |5 w8 Q8 h U* I* A. Y+ Y- v
0 {5 @" y" \9 W7 g. f$ h& L9 L: d! H
面对“要砸钱还是要想法”的老问题,我的答案是:先把方法站稳,再考虑钱能把路铺多宽
/ c& D& L% n1 ]: e! d) G$ h/ O
8 C7 F, _2 B6 z6 P2 ?钱很重要,但不是全部
- y; n9 o: \" J/ ] e! v$ z% h+ Z: ?0 y4 s
当一个139人的团队,能把一件顶级难事做成,行业从此不会再只盯着预算表
0 ]/ T9 ?1 J1 ]0 u0 k5 C; h
9 h% N6 f6 s+ C$ R这或许就是他让科技圈“沉默”的原因——不是被打败,而是被迫重新思考
. Q; o) E, c( r) m6 V. q: T l, ^; J8 |' h8 v
真正的创新,有时需要的不是更多资源,而是另一种思维% \' ~8 H: A% [5 S- k X# K: b# E
! J! @- [5 b2 b5 r3 O/ r这一句放在今天,再合适不过
3 k" d$ C6 i. G% L
& X8 w! m% R+ @7 T接下来,大家都在等DeepSeek的下一步,R2也好,新的训练范式也好,我更关心的是他们是否继续把“效率与开放”推向更远' s7 D N8 n* r; R$ h, w- z3 U& C
8 x4 o, [8 m( a5 Y4 [; I
当我们敢于在方法上做减法,在协作上做加法,技术世界就会出现不同的风景' ~2 p, |/ l R+ v, F; }
2 Z. _3 G* T) H+ w; ?
那时,沉默会变成新的对话 |