硅谷不眠夜:DeepSeek为何震动美国科技界?

[复制链接]
查看896 | 回复0 | 2025-1-26 05:52:08 | 显示全部楼层 |阅读模式
DeepSeek 给硅谷带来的震撼还在持续,并不见降温的迹象。如果和几个月前的《黑神话·悟空》在欧美受到的追捧相比,DeepSeek 的出现可谓是“石破天惊”,充满了各种不可能、不合理。它讲述了一个如何在层层封锁、劲敌环伺的背景下铁树生花的故事,让美国精心设置的人工智能技术小院高墙展现出了坍塌的风险。
4 O3 G8 N8 c5 P; G& L0 x! M! F
7 D+ \( o8 ~; ]0 e) [
' {: ?  r0 D" E: V“我们正生活在一个特殊的时代:一家非美国公司在真正践行着 OpenAI 最初的使命——开展真正开放的前沿研究,为所有人赋能。这看似不合常理,但最富戏剧性的往往最可能发生。”这是英伟达高级研究科学家 Jim Fan 在社交媒体上发出的感慨。2 X9 A% ?: _5 v" k4 R3 j

% c) X- a4 V( {  ~) }
% c+ Y1 ^3 [; c4 V( e2 o$ t/ S+ H3 J% r% {就在最近,这家一年多前还名不见经传的中国 AI 公司,以其新发布的推理大模型 R1 在全球 AI 界掀起了一场风暴。这个模型不仅在性能上比肩甚至超越了 OpenAI 的 o1,并完全开源,且以极低的成本实现了这一突破。这一事件迅速触动了美国科技界的神经。% ~& b3 L/ |7 g/ A$ z4 x! q5 t7 v, n7 N
, V% ]0 P' _5 O, p

  {. A3 A9 `& A! M
" b1 G3 n) H" c/ s. P5 u
硅谷不眠夜:DeepSeek为何震动美国科技界?-1.jpg
7 B2 M. M/ A, m/ L$ N! R
图丨Google 新闻首页推荐内容(来源:Google)
# n3 s$ k0 j; x1 w* h$ U, L

1 |$ a$ u. n: e
  G, G- L8 q0 u! E微软 CEO Satya Nadella 在达沃斯世界经济论坛上直言:“DeepSeek 新模型的表现令人印象深刻,尤其是在模型推理效率方面。我们必须认真对待来自中国的这些发展。”Scale AI 的 CEO Alexandr Wang 甚至将其称为一款“震撼世界的模型(earth-shattering model)”。“我们发现 DeepSeek...... 的性能与美国最好的模型不相上下。”+ G4 y8 Q' c$ x1 M# t# P

3 U0 d* @) K+ ^4 C% O! \; m8 d! x6 c
, V: n% F, B: s3 h; {1 A1 w
硅谷不眠夜:DeepSeek为何震动美国科技界?-2.jpg

3 L" ]1 u# I2 ^) f) S1 r- h2 A
图丨 Alexandr Wang 相关采访(来源:CNBC)

2 q$ p% J+ }, |9 s( E) G
" l0 O) F6 p- _7 p  b4 j8 T" C: y! Q! u. v1 P
事实上,DeepSeek-R1 的出现确实引发了硅谷的一场小型地震。沃顿商学院教授 Ethan Mollick 对 R1 的内部思考过程赞叹不已:“DeepSeek 的原始思维链非常迷人。它真的读起来就像一个人在大声思考。既迷人又奇特”。著名风险投资人、Mosaic 浏览器联合发明人马克·安德森也表示:“DeepSeek R1 是我见过的最令人惊叹和印象深刻的突破之一,作为开源项目,这是给世界的一份重要礼物。”这种开源精神甚至让一位软件工程师将“OGOpenAI.com”域名重定向到了 DeepSeek,以此暗示 DeepSeek 更像早期的 OpenAI,践行着开源 AI 的理念。
0 Y& c+ |& S. W8 {3 @4 c
, w* T6 h7 v' K4 R
2 F' j% J- E/ J  k8 ?% t$ Z2 Q0 b" o, \0 H
硅谷不眠夜:DeepSeek为何震动美国科技界?-3.jpg

  a/ G; \" W% j6 o
图丨相关推文(来源:X)
7 ~8 G7 G5 {& R+ c+ _

" q" y, h6 I/ q( \  u
) p- E; Z. W6 W# }8 ?2 O最直接的冲击体现在同样倡导开源的 Meta 上。据美国匿名职场社区 teamblind 爆料,DeepSeek 的一系列动作已经让 Meta 的生成式 AI 团队陷入恐慌。一位 Meta 员工在帖子中写道:“工程师们正在疯狂地分析 DeepSeek,试图从中复制任何可能的东西。这一点都不夸张。”更令他们担忧的是,“当生成式 AI 组织中的每个‘领导’的薪资都比训练整个 DeepSeek-V3 的成本还要高,而我们有好几十个这样的‘领导’时,他们要如何面对高层?”% y9 i- v  Q+ L8 V. G
: P6 u1 |4 y9 P
5 Q) j" L) L1 [+ c
尽管 Meta 的首席 AI 科学家 Yann LeCun 强调,这不应被解读为“中国在 AI 领域超越美国”,而是“开源模型正在超越专有模型”。然而,扎克伯格随后的举措还是暴露了 Meta 的焦虑:宣布加速研发 Llama 4,计划投资 650 亿美元扩建数据中心,并部署 130 万枚 GPU 以“确保 2025 年 Meta AI 成为全球领先模型”。4 z; D; g6 j# Y% @
0 f7 u" m( g; b9 n2 }$ K

+ V7 U4 \# k) O! \0 F% r3 e* m2 r5 S& @* ?9 c
硅谷不眠夜:DeepSeek为何震动美国科技界?-4.jpg
4 U- A8 M8 w4 h  I/ t4 [- g0 \6 z
图丨扎克伯格在相关贴文中附上的 2 吉瓦数据中心位置图(来源:Facebook)
) g, l* G7 W, E  F) {; y

1 H% A" @$ @* `& |- g# J! ^3 N; {+ E" {6 W7 V' ^7 U; d; I
艾伦人工智能研究所的研究科学家 Nathan Lambert 称,“在这一点上,Meta 绝非个例”他认为,R1 的发布标志着推理模型研究的一个重要转折点。在此之前,推理模型一直是工业研究的重要领域,但缺乏一篇开创性的论文。就像 GPT-2 对预训练的重要性,或者 InstructGPT 对后训练的影响一样,我们一直在等待一个推理模型研究的里程碑。Lambert 指出:“推理研究和进展现在已经锁定——预计 2025 年将有巨大的进展,而且更多将是公开的。”# D7 C& E  I1 u7 w! C) I) ]

1 e, O8 @2 \; ]. }- m. j8 y( c- ?$ d  X/ W( W0 R
那么,是什么让 DeepSeek-R1 如此特别?R1-zero 采用的训练策略证明了仅通过强化学习(RL,Reinforcement Learning),无监督式微调(SFT,Supervised Fine-Tun-ing),大模型也可以有强大的推理能力。Hyperbolic 联合创始人兼 CTO Yuchen Jin 将这一突破与 AlphaGo 进行类比:“就像 AlphaGo 使用纯 RL 下了无数盘围棋并优化其策略以获胜一样,DeepSeek 正在使用相同的方法来提升其能力。2025 年可能会成为 RL 的元年。”: ]; c0 V  q) J

+ D# x1 A* N1 e: n0 h% r5 @  e
: `  r3 w, w: \" O) F不过,R1-Zero 在可用性方面存在的一些小问题表明,要训练出一个出色的推理模型,需要的不仅仅是大规模的 RL。
0 ?* ?! d9 E( j0 ~. y+ }  m" e- w  F4 ?, _0 c# ^1 S
- ]3 H# u) d2 ?/ E6 P5 h
在 R1-Zero 的基础上,团队针对 R1 采用了一个四阶段的训练方案:首先是对合成推理数据进行“冷启动”监督微调;其次是对推理问题进行大规模强化学习训练,直到收敛;第三是对 3/4 的推理问题和 1/4 的一般查询进行拒绝采样,开始向通用模型过渡;最后是混合推理问题和一般偏好调整的强化学习训练。这个过程不仅实现了高效的训练,还保持了模型的可读性和最终性能。
% a; v3 p- G8 o' T3 M' q5 U' q* V# u8 Q
) F7 g+ ^) q& ^
0 j! m9 _! o  W/ o
硅谷不眠夜:DeepSeek为何震动美国科技界?-5.jpg
4 @; R# s# s% Z0 Y# o2 E3 C/ _% ^
图丨 DeepSeek 采用的 GRPO(Group Relative Policy Optimization)算法框架(来源:arXiv)

; A2 J2 l- @7 J  O$ e$ a
  d: m- E) p* h2 l! r- q
" d6 o$ d$ R- s5 E% m0 y0 @; X& z更关键的是,DeepSeek 通过创新性的方法,在有限的计算资源下实现了这些突破。正如微软 AI 前沿研究实验室首席研究员 Dimitris Papailiopoulos 所说,R1 最令人惊讶的是其工程简单性:“DeepSeek 追求准确的答案,而不是详细说明每个逻辑步骤,这显著减少了计算时间,同时保持了高效率。”) D. I. c" V. D# N

" T8 G  X' _% t' u6 A7 s: N* N2 ]
6 u% W* n! d  v" Y" Q! f, r- f1 H尽管 R1 备受关注,DeepSeek 仍然相对神秘。创立于 2023 年 7 月的 DeepSeek 一直是一家低调的公司。公司创始人梁文锋毕业于浙江大学信息与电子工程专业,此前创立了管理约 80 亿美元资产的对冲基金幻方量化(High-Flyer)。与 OpenAI 的 Sam Altman 类似,梁文锋的目标也是构建通用人工智能(AGI)。
) n. T6 Z5 k! \9 v+ I! |/ u* u+ F
! D1 q/ ^3 T4 Z# S; w3 a; h
9 i2 X& {  V0 mDeepSeek 的成功与其独特的发展策略密不可分。在美国实施芯片出口管制之前,梁文锋就收购了大量英伟达 A100 芯片。据有关媒体报道,公司库存超过 1 万块,而 AI 研究咨询公司 SemiAnalysis 创始人 Dylan Patel 预估这个数量至少是 5 万块。这种前瞻性的布局为该公司的技术突破奠定了基础。$ F  a6 t/ z$ z) Z4 e: L3 Q

" d6 ^$ n; |2 J1 X. f+ F$ ]* P% |
更重要的是,面对芯片限制,DeepSeek 将挑战转化为创新机遇。美国西北大学计算机科学博士生、前 DeepSeek 员工 Zihan Wang 告诉《麻省理工科技评论》:“整个团队热衷于将硬件挑战转化为创新机会。”他补充说,在 DeepSeek 工作期间,他能够获得充足的计算资源并有自由进行实验,“这是大多数应届毕业生在任何公司都不会得到的待遇。”) }% t0 i- ]; k
, ~3 _9 s: Y. H/ a. ]

' M, U# Y" A8 ]9 V! }这种创新精神体现在效率的提升上。在 2024 年 7 月接受采访时,梁文锋承认中国公司在 AI 工程技术方面相对落后:“我们必须消耗两倍的计算力才能达到相同的结果。再加上数据效率差距,这可能意味着需要四倍的计算力。我们的目标是不断缩小这些差距。”梁文锋本人也深度参与研究过程,与团队一起进行实验。% ]0 \( x0 i4 k

: b: S# s! N1 D, O) v3 |9 K4 ?4 D4 }
而 DeepSeek 最终找到了减少内存使用和加快计算速度的方法,同时没有明显牺牲准确性。' L  D! [( L+ E& E! @( I
( a& u3 v  r2 n' U

. Z! t8 m9 d( E# M实际上,中国公司在这方面已经形成了某种共识,他们不仅追求效率,而且也在越来越多地拥抱开源原则。阿里云已发布了超过 100 个新的开源 AI 模型,支持 29 种语言,涵盖编程和数学等各种应用。据中国信息通信研究院的白皮书显示,全球 AI 大语言模型数量已达 1,328 个,其中 36% 来自中国,使中国成为仅次于美国的第二大 AI 技术贡献国。
8 \; \, s) f5 T& E5 w) [% M
+ K! t$ E9 G+ `# n+ d. X1 g# z2 u8 \8 {: k6 C
“这一代中国年轻研究者特别认同开源文化,因为他们从中获益良多,”塔夫茨大学技术政策助理教授 Thomas Qitong Cao 说。
. m, |  F& x, Q, t! v( M5 C2 ^! a, @) ^9 h4 `$ [; D$ h% s; y; }
& U' d$ G5 Q' W; R
卡内基国际和平基金会的 AI 研究员 Matt Sheehan 则指出:“美国的出口管制反而逼得中国公司不得不想办法提高效率,把有限的算力用到极致。考虑到算力短缺,我们可能会看到更多企业开始抱团取暖。”% r: k1 ^" J! d, }, Z- L
5 h: [; l: t- ]6 k. L' Q
+ `8 M0 T) N. w! z( V7 U0 S  k
“在 AI 行业出现一定的分工是很自然的事情,也更节省资源,”Cao 补充说,“AI 发展得太快了,中国企业必须保持灵活才能适应。”2 O0 n) h$ ~. g# ]' a8 h
/ s$ n- ?% i, F1 L

8 P- c! v4 \- n. x- j8 T
! L' X/ c& g, P$ x4 p2 T
硅谷不眠夜:DeepSeek为何震动美国科技界?-6.jpg

) T" i. a( B1 _# ~$ E
图丨相关推文(来源:X)
/ h5 A+ s' x; s: e5 Z: j' y% N

3 T4 v0 N- `- }+ H5 g, e" i4 p' T" t3 @# N! l- A- t8 z$ h
随着 DeepSeek 等中国公司在 AI 领域的崛起,全球 AI 竞争格局正在发生微妙变化。如果中国公司能够以更低的成本实现同等或更好的性能,而且这些模型还大都开源,美国公司赖以维持的技术优势和高估值可能会受到挑战。这种担忧已经反映在英伟达等 AI 概念公司的股价上,有分析师甚至指出:“事实上,中国量化基金的一群超级天才将导致纳斯达克崩盘,但目前还没有人意识到这一点。”! @4 m$ ~1 E9 D& q) Y: B$ b% N
* M! l1 p- e6 W! k2 A. q9 H

) v% z) Z/ l. @5 T2 c7 o+ O/ X不过,现在就高呼“中国 AI 已经超越美国”或“遥遥领先”还为时过早。如清华大学计算机系长聘副教授刘知远所说:“DeepSeek 的突破确实证明了中国 AI 通过有限资源的极致高效利用,实现以少胜多的独特优势,中美 AI 差距正在缩小。”% l0 C& G+ B5 w% X- o* `  W/ k: R

# S; d5 u; C- i, ]1 y
5 ], j6 S5 S4 ~但现在还远未到“胜券在握”的时候。刘知远认为:“AGI 新技术还在加速演进,未来发展路径还不明确。中国仍在追赶阶段,已经不是望尘莫及,但也只能说尚可望其项背。在别人已经探索出的路上跟随快跑还是相对容易的,接下来如何在迷雾中开拓新路,才是更大的挑战。”8 u$ Q6 P* x5 q5 G
& P$ f) O6 |; ^0 |2 N

0 z& g- q3 e* w" T* E; p8 F从大疆到宇树,再到当红的 DeepSeek,越来越多的中国科技公司成为美国科技界绕不过去的热门话题,一方面体现出中国公司在供应链优势下对成本的极致敏感,这加速了技术民主化的趋势;更体现出技术竞争的魅力,如果切换一下视角则会发现,硅谷这段时间感受到的震撼则是过去两年中国同行的常态。, ~1 n& D/ L8 s
+ Z6 k( v1 `6 b, g9 J+ ^7 Y
; p" o/ k4 e4 T* X) `; G% u1 k2 M
参考资料:( z' m" \; |- h
1.https://www.technologyreview.com/2025/01/24/1110526/china-deepseek-top-ai-despite-sanctions/
; ^  B2 k$ O# G5 l* m7 i9 Q# o2.https://venturebeat.com/ai/why-everyone-in-ai-is-freaking-out-about-deepseek/
9 Z0 c- y! ]) e3.https://www.interconnects.ai/p/deepseek-r1-recipe-for-o1
# t4 D/ y" S" s1 y7 s; ]) K4.https://techcrunch.com/2025/01/22/someone-bought-the-domain-ogopenai-and-redirected-it-to-a-chinese-ai-lab/9 b* M3 G6 |$ v8 S6 r$ o" ]
5.https://www.cnbc.com/2025/01/24/how-chinas-new-ai-model-deepseek-is-threatening-us-dominance.html
4 Q4 z% i9 c, e) i( C6 n  @
+ Z3 A- V% Z, w) A8 ]) @! q) d, }  ?$ W9 R9 G* m  w3 u
排版:嘉鱼、初嘉实
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

295

金钱

0

收听

0

听众
性别

新手上路

金钱
295 元