官媒官宣!40岁梁文锋再破天花板,这次,他让雷军和科技圈噤声了

[复制链接]
查看8438 | 回复0 | 昨天 11:01 AM | 显示全部楼层 |阅读模式
他用29.4万美元,把一个世界级大模型送上了《自然》封面,还是全球首个通过同行评审的主流大语言模型. q* Q* r% S. f6 z% L
! ]5 x; w. x% d4 V. m/ D1 y6 n. e
第一次听到这个数字,我是愣了一下的5 T( X( T6 @+ _) x8 K

+ `+ L( L1 m# e
官媒官宣!40岁梁文锋再破天花板,这次,他让雷军和科技圈噤声了-1.jpg

  {/ V& Z  f: J& }# @) a& c) b8 h+ E- J
不是因为便宜,而是因为它逆着行业共识走7 p1 I& M& t2 c; L  I

5 D, [; D0 [& B外界对ChatGPT-4o的训练成本估算在7800万到1亿美元之间,DeepSeek-R1却只花了不到三十万
# R  a/ a* Q% G. K' e, x
1 T# a. l1 y5 }: P. A. ~5 W这一刀,直接砍在“只有高投入才有高产出”的旧规则上
/ t! D! X+ V; S
% k6 x4 Q- q  C( H- C: _& e你要知道,梁文锋并不是从AI圈起步/ F8 {0 `0 n  [7 F: N
3 o( X1 t2 t; l
他1985年生在广东湛江,17岁考入浙大,30岁创办幻方量化
* N( C( S' e2 Y+ h8 {# {$ Q+ ^. w; f$ b: T0 N; e
2015年的市场波动,幻方靠高频量化策略脱颖而出* t: L  Q; k+ _. I
- i0 t" C2 v" k" J
到了2016年,他拉起了首个基于深度学习的交易模型,随后自研“萤火一号”训练平台,砸下近2亿元,堆起了1100块GPU
2 i( D9 G5 \2 c! a$ K, Z" R0 u7 q# w5 e; K' ?! x: T
这不是只会省钱的人,相反,他在需要硬砸的时候从不手软
' n% G, u8 q4 O% h( C8 z- `1 r& Z# q7 I* K6 z. |8 R% V( B
官媒官宣!40岁梁文锋再破天花板,这次,他让雷军和科技圈噤声了-2.jpg
  V" N) V# R, y2 |( r: e

, Q4 x6 y) G  {/ r7 [7 l# B2021年,幻方管理规模破千亿,他在金融圈已经是明星8 X" x7 j& Y& ]1 x/ s4 O7 M. [% O4 o
; n( L* l9 y6 v
很多人以为他会沿着熟悉的轨道继续前进) v/ M  Y& }) i8 @# [6 U. c
, b+ L- N% {9 O: J" C
他却在2023年7月拐了个急弯,成立深度求索,押注通用人工智能——他说,这是他的真正激情* ~8 Y! o! B6 a9 ^7 V* ~! R
" L/ `# R* G7 H
真正的拐点发生在2024年底! o1 ?, d) J$ S; `- F' k

) d$ n! W" ?  r( O" ^DeepSeek-V3发布,训练成本557.6万美元,数学、代码、中文知识问答三项能力竟然压过了ChatGPT-4o
# J6 I. S4 P0 V% P/ s1 j  G9 x
$ o9 p; T* E' z7 y; T2 j6 f. k$ k如果你站在一个拥挤的AI会议厅里读到这条信息,周围那种短暂的安静你是能感到的,像空调突然停了电
: C# i4 X6 M% O" C" D1 w$ T2 Q: a5 v$ c5 c4 g9 v
更刺眼的是,DeepSeek的研发团队只有139人,OpenAI超过1200人4 t1 z5 }1 R0 ?

% b, z; a- ^( {一边是人海战术,一边是轻骑兵" A* H& y6 ^2 I  Z9 V

. V, ^/ V0 y! w/ ]) P) O
官媒官宣!40岁梁文锋再破天花板,这次,他让雷军和科技圈噤声了-3.jpg

6 Q* p  G" W' _* h( h' l( A% r$ L8 s4 s7 D: m3 G8 P0 W7 c) j
梁文锋并不喜欢高调,他说过一句话" L% W: Z* \2 t+ o1 R

3 f: `; d2 Z1 O3 R1 ?“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼”
- U) @& `3 J, i- {& R3 T/ _% v/ I! ]7 Z4 Y
这“鲶鱼效应”,并不是靠喊口号激起来的$ {- d# x  D* ]! r

  H* r! L7 l  Q8 {+ WDeepSeek选择了与“大水漫灌式”不同的路径——先用算法把数据总结、分层、净化,再喂给模型6 O& @$ G/ d( G0 _* Q4 x' ^, f
& q; E: ^) _8 T3 H- ?4 I7 U
这像厨师先慢火熬汤,再下主料,而不是把冰箱全倒锅里
0 O' }6 V0 X) f% a& A: R# y
$ t5 D1 K6 k! w9 p我一直相信,效率不是在账面上做出来的,是在方法里
5 a, l7 g& p% |" ?% y. a1 e
/ k, k: ~* {& _$ X3 t$ f2 C2025年1月,DeepSeek-R1亮相,数学、代码、自然语言推理上与OpenAI o1正式版比肩,还登上了中美苹果应用商店免费榜
3 `4 ^! M* l  _
6 `& u  b+ |, G9 l' q* i真正让全球科研圈定睛的是9月4 z8 l1 q& u. D, G% f  ~
0 P5 x" C/ N' c, E$ ^; B
《自然》把他们的训练方法做了封面——“几乎所有主流大模型还没有经过独立同行评审,这一空白终于被DeepSeek打破”1 Q* V! I' `; e! M' u% D
' e1 t$ d/ o" J+ L8 L7 D! B# W
官媒官宣!40岁梁文锋再破天花板,这次,他让雷军和科技圈噤声了-4.jpg

" Q; K0 w6 t1 h( A. ?- w& S' E8 _5 B, e" o8 A; g, f
同行评审这件事,外界可能听起来枯燥,但它是科学共同体的底层信用
& E7 d: b5 p7 [: r, Q  h$ z. g" H$ n
科学界的门槛不是营销,是可重复、可质疑、可验证
# W$ o) `8 [- W
% W8 n6 J$ M# f成本,还在往下打7 z3 |( m/ q1 R
6 H3 L# ?* ^& M2 V4 o* Q# C6 k
论文披露:构建基础LLM投入约600万美元,R1模型的训练成本仅29.4万美元& O: v: U3 c( c) R* u

& y' Y, u4 H/ O6 {7 c) e9 M) H+ a如果你做过创业预算,能理解这种“节流”有多不现实——除非你在“算法”和“工程组织”上做了结构性创新
' F$ e  N: Y9 @9 b% a* U" S; [3 U; t0 `8 r* a
DeepSeek团队不大,但组织像一个精密的齿轮组,少磨损,高转速
* o9 Y3 N/ J) X: P: L: G
3 z5 R% T) z" A( S更“离谱”的是他们选择开源
5 x; b* Y% D$ j9 ^0 b: D$ l* V  P4 |+ W* x- [& t9 u
梁文锋把R1的训练技术公开,还蒸馏了6个小模型给社区,研究员Yu Wu直言“我们致力于永久开源”0 g, B  v9 y, w8 O6 R

$ l7 Y- a. Y7 Y  R7 m8 D从商业视角看,这像把秘方写在店门口
+ d& Z6 y3 {/ k$ D: }' M" i+ u& }% _6 b, n& p
官媒官宣!40岁梁文锋再破天花板,这次,他让雷军和科技圈噤声了-5.jpg

: d% K- Z' O" X. s+ b- c
# e( S( h* L7 x; ~3 I但截至2025年9月,R1在HuggingFace上的下载量已经超过1090万次,全球开发者用脚投票
6 d& L+ C7 ]& e. |# B$ }. G
8 M6 \! `) g2 R9 m0 |开源不是无偿奉献,而是用生态位换势能
) \4 G. q; {( n/ W4 M& }" ?( m0 {3 O4 V' N3 \
我一直觉得,技术的“势能”,有时比短期的“收益”更值钱$ u- R8 f: |: V  A; q/ U$ Z$ y
' _3 j+ L- s8 `* l& C
雷军在2025年3月说,小米过去五年研发投入约1050亿元,未来五年还要再投2000亿元
# O9 d4 ^- \6 Y: V, C% U8 o; C" |; y9 l9 k) i
这是一种能力,也是一种决心- ^, a8 P; H6 {. x$ M$ D( x! S
* a# i; `* n3 |1 ]& x$ p0 B
而另一边,DeepSeek用不到30万美元做出世界级模型$ Z- N. q9 P2 f% r% q
  b7 K/ C1 i* i  w" I
并不是谁对谁错
6 ?5 h; U; U% k  q4 q1 s# u7 L# `2 M( @4 |& ^+ `
而是这两种路径共同提醒我们:创新不必只有一种打法* p5 H& y' N" H0 P, ^3 j
9 L* q7 G3 |# n0 f
资源足的时候,走规模与硬件协同的路线没问题;
' p1 }4 y, C& l3 j! H- t  H+ [; \5 H
官媒官宣!40岁梁文锋再破天花板,这次,他让雷军和科技圈噤声了-6.jpg

, p, D; c/ b1 z$ q4 e9 `5 Q9 k6 E" D
& P& Z, o/ P2 d( F4 f2 |资源有限的时候,走算法与效率优先,也能冲到前列
3 h7 B9 M% u0 m3 V; Z
! A: K7 b/ T# |1 V行业需要的是“多解法”,不是“唯一答案”。
6 f; `$ I$ U5 N% V7 a1 I- J
! j% B1 q. z- H/ t- [! y2 N关于挖角的故事也有传闻( R1 V8 S2 e8 R' y" W' ~) X! ~. E

* l3 z' t* A4 u: l8 V9 e坊间说雷军曾以千万年薪挖DeepSeek的95后研究员罗福莉,她最终在2025年11月加入了小米( C+ P+ q1 K# X' b2 l' a+ w% G# t

3 p6 N6 i% \" e6 u! ]$ l3 U我更愿意把这看作人才双向选择的常态——1 X7 s* V( x( ~1 M5 P. o+ [

  _* V! W/ G/ @有人留在追求技术理想的团队,有人去把技术落到更广阔的产品场景,都是好事' ]; M5 C$ l* e7 g) U

( @- [5 _, ^4 {* A( ~2 F9 B再说回技术本身,R1的新版本把幻觉率压低了45%到50%,AIME2025测试准确率从70%提高到87.5%
+ `7 S- G; N% M  s+ W/ |! H3 M
0 S' z, N9 O4 ?! B' U+ W9 a这不是一次冲刺,而是耐心的迭代' T' d: L+ L/ f
' G  Y* O5 e+ C7 Y( |0 b
我脑海里总会浮现一幅画面:深夜的白板上写满公式,机房的风像浪一样吹过,灯下有人敲键盘,杯子里咖啡已经凉了+ m  l. \! A+ K2 Z

& Z7 q3 @& z' e- C. `$ o
官媒官宣!40岁梁文锋再破天花板,这次,他让雷军和科技圈噤声了-7.jpg

# X" x$ |! v+ ^
5 V9 a6 u% [' g. [# d+ f真正的突破,常常发生在无数次“再试一次”之后! Z2 \& n: B) F4 T& v7 i
' b$ `& B  O! I9 x
到2025年,他入选《时代》全球最具影响力100人,又被《自然》评为年度十大人物,“科技颠覆者”
0 m/ W5 D( d/ c. @- m. P: a; v; V  P
名字被推到台前,但他手里拿的不是融资公告
- h( P6 ?2 R" b8 o* W! p  K2 J3 [) v: n; m
而是一篇把“怎么以高效率做成难事”写得扎扎实实的论文
/ |% H/ |( X- W& p; l7 r3 m% a4 I& H
他还说过一句我很认同的话
8 N% U+ R8 D8 z5 U/ i0 R5 Z; F$ H( n5 N8 y7 M' L* Q+ }1 t
“DeepSeek象征着中国科技从‘模仿者’到‘创新者’的加速转型”
( r3 [, S; p; j+ f+ }: D9 e8 F3 @% D8 E. c% Q
转型不只是做出新东西,更是在“怎么做”的思想上,往前迈了一步
1 r) K5 p+ S+ u- I7 O
! p/ c; ^2 q/ M8 z. U, t从2013年幻方起步,到2016年深度学习交易模型,再到2023年创立DeepSeek、2024年底V3亮相、2025年R1登封,时间线拉直以后,你会发现他做的是一件事:
: [  ]" A5 ?- h- ^& V+ `! V  h% D: |7 G
官媒官宣!40岁梁文锋再破天花板,这次,他让雷军和科技圈噤声了-8.jpg
9 k6 n9 q6 {, a' d* G" j. r0 }% N
3 C  a5 c. P1 G/ A2 y9 `
在“算力、算法、组织”的三角里,把效率拉满# b8 I0 O$ ~" g, V. y
" L. ?* [4 n3 z1 D( u
这套组合拳,最后打到的是行业的成本曲线、协作方式和认知边界7 [* a! \$ h+ i  f+ s% f
' o+ B4 T3 v0 ?0 x5 q7 L
有人问,这条路值不值?
' z( m2 c# @5 j4 H9 z% d" [% @' u% ^0 R
梁文锋的回答很清醒:如果一定要找一个商业上的理由,它可能是找不到的,因为划不来! u9 `- z) B( @0 o& U' ~
# W0 ^3 Y2 J$ l! b0 c* g; J
但他依然选择开源与共享
' E3 f9 v! P' _5 n4 H* b( u7 n) C  o" F' T; K4 E! g4 p+ S8 h3 c
我理解为一种长线信念——当更多人站在同一块基座上,塔可以盖得更高
1 R9 J  @+ w& V. d9 M8 Q+ ~  o* a' T$ ~  G$ G- u8 X+ d9 X. J$ T
商业上能不能快速变现,未必是第一优先
* d$ M0 E7 g- w  S0 b9 I
! ~, o8 f7 r0 A* [6 Q! S当技术的公共底座更稳,后来者就能更快地创新,生态的总产出也会更大3 f, _; _' @. G9 m( |. o; @
1 j) P& B" x* [' H  O
官媒官宣!40岁梁文锋再破天花板,这次,他让雷军和科技圈噤声了-9.jpg

9 u& m1 q/ ~- n# m
; h, \5 r; S1 `面对“要砸钱还是要想法”的老问题,我的答案是:先把方法站稳,再考虑钱能把路铺多宽& l: G6 N8 q. E1 O3 v( F
8 F5 M8 T% p" u1 K
钱很重要,但不是全部
7 Y+ C: i- A0 `8 q7 m: O7 j+ E' Q/ x6 `6 a% l: h9 I
当一个139人的团队,能把一件顶级难事做成,行业从此不会再只盯着预算表
) |  M6 @" P0 T8 q6 ^" {2 K7 B0 D3 p2 h# v0 [8 F  ~
这或许就是他让科技圈“沉默”的原因——不是被打败,而是被迫重新思考
! l5 r) Y) p1 A6 ]) h: e
2 J; }4 w, `: j6 B真正的创新,有时需要的不是更多资源,而是另一种思维
7 l3 C6 `( T: j5 d! w% c* h% w7 c
# s. R. r5 v% q: u' b& L- s这一句放在今天,再合适不过* h" l% \* e4 n5 k! n  [, z

0 w0 J; U1 u( V9 Y% R; I, i接下来,大家都在等DeepSeek的下一步,R2也好,新的训练范式也好,我更关心的是他们是否继续把“效率与开放”推向更远+ `  H. S8 b0 X

- M3 H3 U- j( g5 C当我们敢于在方法上做减法,在协作上做加法,技术世界就会出现不同的风景
( D/ b! B/ V$ {3 @
+ z8 z  P5 P2 D' _那时,沉默会变成新的对话
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

296

金钱

0

收听

0

听众
性别

新手上路

金钱
296 元