混乱、分裂、吞并：2024年AI的信仰之战

显示全部楼层 · 2025-1-13 02:58:36

0 l9 `; o+ z7 Z9 T/ J) O1 ^: @ J9 y
文 | 硅谷101! y* A) B# A0 K; E- a. n+ @6 Z( `7 P

2024年，硅谷的生成式AI大战丝毫不比2023年逊色，只是这一年的AI战争更残酷更直接：

巨头们不但拼模型能力，还拼爆款产品，同时继续投入数百亿美元拼算力建数据中心；而几家一年前还是明星项目的初创企业却因为资金烧光，直接被巨头吞并。

在学术界，技术领袖们对AI的未来依然争论不休、骂战不断：GPT5依然没有踪影，Scaling law甚至被认为已经遇阻“撞墙”。

然而2024年底，谷歌Gemini 2.0的发布，以及OpenAI一连12天发布更新，却让大家对2025年AI的进展又有了一些新的期待...

这期内容我们将回顾下生成式AI在硅谷的2024年有哪些drama，又有哪些实在的技术进展和路线探索，以及2025年的AI会如何发展。

我们将结合与技术大佬的采访聊天，从巨头的AI布局路线、产品落地、陨落的明星公司和冉冉升起的新星们，以及业内对2025年AI展望这几条主线来展开，看看过去一年都发生了些什么。

01 OpenAI的宫斗与新技术路线

Chapter 1.1 OpenAI宫斗落幕

OpenAI在2024年的drama并不少：2023年底的董事会风波之后，2024年OpenAI的高层依然极度不稳定，人才流动性很大。

联合创始人、首席科学家Ilya Sutskever在五月离职。之后他宣布创办自己的初创公司Safe Superintelligence，快速融资了10亿美元。

和Ilya一起离职的还有超级对齐团队的关键技术人物Jan Leike。之后在九月，CTO Mira Murati也宣布离职，有消息称她正在为她新的初创公司融资。

OpenAI其它的高层变动还有联合创始人兼ChatGPT开发的核心领导者John Schulman——他于8月加入了对手公司Anthropic。

同时，联合创始人、前总裁Greg Brockman在休了三个月的长假之后回到了OpenAI。

至此，OpenAI当初11位联合创始人到如今已经只剩下了Sam Altman，Greg Brockman及Wojciech Zaremba三位。

OpenAI用了一年的时间来处理高层之间的人际冲突，如今终于暂时稳定了局面。坏消息是多数的创始成员都已经离开，好消息是这场宫斗终于结束。

Sam Altman有了稳定的权利，接下来或许可以更顺利地推进他想象中的AI发展方向，包括将OpenAI从非盈利组织变成赢利组织来更好融资，推出更多可以商业化的产品等。

如今OpenAI 已宣布转型为公共利益公司（public benefit corporation）。

2024年10月，Sam Altman为OpenAI完成了新一轮66亿美元的融资，公司估值来到1570亿美元。但OpenAI烧钱之狠也是有目共睹的：

《纽约时报》获得的融资文件显示，OpenAI2024年预计收入达到37亿美元，但预计亏损将达到50亿美元，而2026年亏损可能会高达140亿美元，这一估算还不包括给员工的股票激励兑现。

虽然OpenAI承诺投资人收入在成倍增长，预计在2029年达到1000亿美元，实现盈利，但按照这样的烧钱进度，OpenAI在2025年的两大趋势会是必然：第一是大规模融资；第二是更激进的商业化。而这其实和2024年OpenAI的路线也是相同的。

2024年，OpenAI没能如预期发布GPT5，这让市场中不少人失望，但惊喜的是4o的多模态进展。此外，o1和最近o3的发布让人看到模型能力进化的另外一种路线。

Chapter 1.2 o1与o3:AGI另一条路线

在2024年5月初，OpenAI发布多模态4o功能，正式与谷歌等竞争对手进入AI多模态之战，可以实时对音频、视觉和文本进行推理。

事实证明，4o发布之后，特别是在免费版本中提供有限的4o功能和4o-mini之后，ChatGPT的订阅人数大幅上升，依然在2C领域上远超竞争对手。

2024年12月，ChatGPT的周活跃用户已经超过3亿人。

在9月，OpenAI发布了另外一个让业界惊喜的更新：o1。

简单来说，o1学会了人类的“慢思考”，包括利用思维链（Chain of Thought，简称CoT）来进行反复的思考、拆解、理解、推理，然后给出最终答案。这使得AI的推理能力在处理科学、编码、数学及类似领域的复杂问题时有了飞跃的进步。

o1这个内部代号为“Strawberry”的强大模型更新，让我们看到了在预训练上堆参数的“大力出奇迹”之外的、通过推理阶段的算法突破找到一条新的通往AGI的道路。

我们在2024年硅谷华源科技年会上采访了多位技术大牛，都非常看好o1的路线。

其中，OpenAI前安全研究副总裁Lilian Weng在2024华源科技年会上对硅谷101表示，o1的发布能将OpenAI所定义的“五层超级人工智能”，从最初级推进到了更上一层级：

“五层超级人工智能”分别是：对话conversational AI，推理reasoning AI，自主autonomous AI，创新innovating AI，组织organizational AI。

4 h' ?9 {" ~- sLilian Weng
4 f+ Q/ w! U9 p. C% m: _- q  Y3 D) @( ?: N/ l. W6 R
OpenAI前安全研究副总裁：/ ]: t- X7 Q% [2 P% C+ U  T  P/ k. ^4 C$ _+ z

* n0 ^& _! X/ {+ Y, F: A随着我们转向强化学习（RL）训练来加强AI的推理能力，我们最近发布了AI的五个等级，比如会话AI（聊天机器人）、推理AI、代理AI等。我们的确发现这能帮助AI在这个五层框架内，达到下一个水平，这也是为什么我们将模型系列重新命名为o1。
. b+ c, V0 A+ Y, q+ R7 T" a
$ I" h' E9 O& k1 E  H- r最近发布的o1整体模型，凭借在推理能力上的显著提升，展现出非常不错的结果，但在产品方面，我们仍需更多努力。
: p  l- O, I& e8 ~( ?7 o, o

/ X4 A9 M: [9 E' \! u4 K% W% x李沐" d% I. q+ t$ O0 s: _
1 a& G" n5 c7 x+ y$ c0 U
亚马逊前AI首席科学家；BosonAI创始人：, n4 C; ^9 L3 t
7 k7 ~; A6 @; `! _! x8 I( m
制作o1模型是因为大语言模型更多是即时生成的，如果想执行许多其他复杂的任务，你需要将其分解为多个任务，以便它们可以逐一完成，人们称之为代理或工作流。, f; B, z! |/ m* M

# N: H a% u- p u, w8 O而o1尝试自己解决问题，比如在后台将问题分解为小步骤。这时你需要权衡的是延迟的问题，因为后台处理可能需要花费一分钟。所以我认为对于特定的应用场景来说，这种做法肯定是有效的，特别是如果你不介意延迟的话。
' l6 Z* ?4 R( [# ? p" z
$ X: [. G1 y6 t/ A+ l) t我认为这种方法同时还很好地降低了成本：因为模型可以逐步执行很多步骤，这让模型训练变得更容易。所以，为了获得更好的推理质量，在延迟上做一部分牺牲。这很可能是一种趋势。$ x9 u& ]2 B& g3 a

在o1发布之后，OpenAI年底的12 DAYs连续发布了。

不得不说Sam Altman是营销的一把好手，这12天的的马拉松式发布，开头的时候抢了亚马逊re:Invent发布AI功能的风头，期间也和谷歌的发布时间重叠，把媒体目光始终牢牢掌握在自己手中。

这12天的发布活动中，除了前几天的o1正式版、生成视频模型Sora在历经10个月之后终于开放给公众、以及集智能写作、代码写作和定制化AI agent为一体的AI工作台Canvas之外，其它的更新比如说ChatGPT Search升级、与苹果Apple Intelligence的协作等等，看上去就非常不痛不痒，甚至感觉是在给12天的发布会凑数。

直到最后一天，OpenAI给出了一个王炸：o3。

o3是2024年9月发布的o1的下一版本，因为o2涉及其它公司的版权商标问题，所以OpenAI直接把这个更新跳了一个数字。

o3在数个测试上的能力，无论是程序员编码竞赛（Codeforces）中超过99%的人类程序员，还是博士水平的科学问题（GPQA）已经超过一般人类博士生，还是最难的前沿数学测试，还是抽象推理能力基准考试ARC-AGI，o3比o1的提升可以说是惊人的，而这个版本的更新仅仅用了三个月的时间。

这让AI业界的不少人相信，OpenAI在o1和o3这个强化推理这个范式转变是有效的，这让担心AI大模型已经“撞墙”的人们稍微松了口气：至少AI模型的发展还在推进。

大家也能理解之前Sam Altman说的“there’s no wall”（墙不存在）的推文了。

有采访嘉宾认为，在2025年，预训练上的“拼参数”会持续，但后训练的推理能力探索会同时进行。这样的“钟摆”科技途径发展，就像之前英特尔提出的Tick-Tock计划一样，会成为双重并行的发展主旋律。

) O/ `( |1 W& z7 s, [# A5 h
邱谆 (Jonathan Qiu): G5 d8 S/ o. H/ \* l) b

+ u& V* s4 N6 h$ L) g: _华映资本海外合伙人：7 ]- V* | C O0 ~. O
3 g' B6 }% F1 }" _9 h
Tick-Tock的意思是左边是数据驱动，右边是规则驱动，两边会来回跳动。一会是用更好的数据集去训练它，但同时用更好的算法去推动它，所以就是在算法跟数据两边Tick-Tock（摇摆）。因为现在o1和o3更多的还是算法，但是之前包括 GPT 其实也是数据集的驱动。所以，在（数据和规则）这两边的摇摆的时候，应该会摇出下一个大的 breakthrough（突破）或者milestone（里程碑）。
! a+ i9 i9 R3 F8 x

在2024年年底，OpenAI给整个产业送上了一份圣诞惊喜。虽然o1和o3非常昂贵，o1 pro的订阅价格是每月200美元，而o3进行一次低算力计算的成本高达20美元，高算力就更不用说了，要在现阶段大规模商用几乎是不可能的。

但这也给市场打了一针镇定剂：AI发展并没有放缓，而Scaling Law依然有效。算力成本会降低，而OpenAI在2025年会继续按着卷参数以及卷推理算法的两种并行路线去探索AI的下一步。

如果o3的路线能将我们带到“五层超级人工智能”的第二层，那什么突破能将我们带到再下一层自主autonomous AI呢？不知道OpenAI在2025年能否给我们这个答案。

接下来我们聊聊OpenAI目前最强劲的几个对手，首先就是谷歌。

02 穷追不舍的谷歌:布局AI Agent

2024年12月底，OpenAI进行12日发布会期间，谷歌进行了几个重磅发布。如果OpenAI没有压轴的o3，年底的风头几乎全都会被谷歌抢走。

谷歌首先在12月12日发布了多模态大模型Gemini的第二代Gemini 2.0，谷歌CEO Sundar Pichai在发布公告中表示，如果说Gemini 1.0是用于组织和理解信息，那么Gemini 2.0则是让信息变得更有用。

怎么理解Pichai说得第二代Gemini能让“信息变得更有用”呢？首先，Gemini2.0在多模态功能上更强大。

谷歌目前对外开放的新模型是Gemini 2.0 Flash，在响应时间上比上一代的1.5 Flash性能更强、延迟性更低。在多模态上，2.0 Flash支持图片、视频和音频的输入以及多模态的输出。

紧接着，12月16日，谷歌发布了新一代视频模型Veo 2，非常惊艳，直接对打Sora。

细节我们不展开了，目前的结论是：Sora在最开始公开到最终对用户发布的这10个月中，包括谷歌在内的竞争对手已经赶上来并在多模态能力上做得更强了。

12月20日，Google Brain团队负责人Jeff Dean宣布Gemini 2.0 Flash Thinking的推出——直接对标OpenAI的o1路线，展现出谷歌内部对思维链技术（CoT）的能力，并且Gemini 2.0 Flash Thinking的思考速度会比o1-mini要快。

最后，谷歌还强调了Gemini大模型系列对AI Agent的布局。

在2024年5月的谷歌I/O大会上，非常惊艳到我的项目“多模态虚拟助手Project Astra”，也有相当的进展。

在Astra Gemini 2.0的demo中测试人员使用手机和AI来进行实时交互，包括快速提示公寓大楼的安全密码、随时对公共交通路线进行询问等，人们也可以带着智能眼镜进行更沉浸式的多模态交互。

我个人认为，智能眼镜在一些场景下比手机更适合作为agent入口的交互硬件，因为它可以捕捉人们的目光，作为音频视频和屏幕的呈现载体，而用户也能得到7*24小时永远在线的体验。

所以失败了多年的Google Glass是不是终于能活过来了呢？也许在2025年我们会有新的答案。

看得出来，Sundar Pichai非常重视Project Astra，认为它“展示了通用AI助手的曙光”，而谷歌Gemini大模型依靠长文本的能力，能让Project Astra记住长达10分钟的会话内容来提供个性化的服务。

同时，借助Gemini 2.0，Project Astra可以使用Google Search、Google Lens和Google Maps ，从而真正让一个AI agent在日常生活中发挥助手的作用。

虽然目前来看，这个项目还在比较早期的阶段，如果我们看看之前提到的OpenAI定义的五个AI层级，Agent能自主行动完成任务已经是第三个层级了。

这也展现出谷歌对AI agent的押注，而这个赛道也被很多人认为将在2025年是个极其火热、面临爆发的赛道。

对于谷歌来说，全力押注AI agent也很自然：如果谷歌最赚钱的产品，也就是“搜索”将会被AI交互颠覆，那么AI agent的入口、屏幕、交互、模型反馈都是谷歌必须要占据的领地。

* H- }* [- ?- I. k- B8 C T
邱谆 (Jonathan Qiu)
5 E% X/ h6 R* ?% v# h+ u' R0 t0 L# }7 H" N' h
华映资本海外合伙人：
4 p, f5 }9 T5 M* z
$ \0 D) L0 b5 B c如果你是 AI application（应用），你就是Copilot（副驾驶）；AI agent（智能体）是自动驾驶， Copilot 就是辅助驾驶。
) ], {' m% s. z( y% x; e0 J! H/ Q0 R- t) o
很多application（应用）把自己叫agent之后没有在算法上面有真正的创新，也没有数据。如果就做agent，我个人觉得下一步还是要往数据的角度去走，agent也需要数据。我觉得下一步 2025 年，可能会在这几个层面。- ^) x/ l0 S: o' L- j: \# S$ D

Chapter 2.2 长文本能力：NotebookLM

在2024年，被谷歌卷起来且处于业界领先地位的还有它的“长文本”的能力，这个长文本能力指的是让大模型理解超长的上下文。而基于这个能力，谷歌在2024年也衍生出了一些爆款AI产品，包括NotebookLM。

2024年2月15日，谷歌的Gemini 1.5 Pro把长文本能力卷到100万tokens；

5月，谷歌宣布更是将长文本能力翻了一倍到200万tokens。

同时，谷歌新发布的论文，描述了一种新的注意力技术“inifini-attention”（无限注意力），能使Tranformer大模型在有限算力情况下处理无限长度的输入。

- ~. [+ n" y# j. U$ R6 F% K: D
Bill Jia
8 v2 y. `; x+ J6 E+ Y& X3 O* k( m1 H7 e
谷歌CORE ML/AI工程副总裁:- {% P& a& v! g% _$ Z
; L" E8 j- w# D, e
如果我们不算Gemini的模型，那么在业界现有的最好的大型语言模型，允许的Token(AI处理文本的单元)数量大约在10万到20万之间。假设一个token相当于一个单词，则大致可以包含总共10万到20万个词作为给AI的提示词。
4 \* \, r, ^2 u$ W3 p. I8 {& ^& x+ y, x
而谷歌的Gemini模型将上下文窗口从最先进的20万扩展到了100万到1000万——这几乎是一个50倍到100倍的增长。对于大型语言模型来说，这个上下文窗口实际上是一项非常有用的技术：上下文窗口越大，你可以向模型提供的输入就越多。
* a0 \$ Z3 [8 K, ~5 F( K

: X, L' l {* G) F
Gemini模型在实际应用时，就能够支持这样一个巨大的上下文窗口，因此，我们可以将大量相关信息输入Gemini，这样一来，对话就会感觉非常在点子上。这也是Gemini模型能够产生非常好对话效果的部分原因。
) i( P( h6 @0 |& Z

在这样的长文本技术下，谷歌2024年的一个爆款应用名为NoteBookLM。

NotebookLM是基于Gemini 1.5 Pro的长文本理解和多模态能力而衍生出的笔记管理工具，一推出就迅速获得了众多硅谷科技大佬们的盛赞，包括Andrej Karpathy、Sam Altman，都公开为这个产品站台。

NotebookLM最惊艳、出圈的功能之一是音频概览，也可以被称之为AI播客。

有谷歌的Gemini底座大模型的多模态和长文本能力支撑，NotebookLM的AI播客功能可以将文档、视频或者音频总结生成一男一女对话的方式，让用户用“听内容”的方式获取信息，在播客podcast这种媒体形式无比流行的硅谷形成了病毒式传播的现象级别产品。

虽然回答的内容比较浅显，交互也比较像相声中的捧哏，但NotebookLM在对内容的抓点和总结能力是非常精准的，生成的两位AI主播的对话也非常自然流畅，AI感很低，我也大概能感受到这个产品之后的潜力还是会非常大。

12月中旬，谷歌发布NotebookLM Plus，新加入audio overview功能、允许用户在播客中间打断AI主播，提出建议或问题进行交互，同时用户还可以自定义播客风格和主题。

NotebookLM之前的核心团队负责人Raiza Martin，设计师Jason Spielman和核心工程师Stephen Hughes已经从谷歌辞职出来自己创业。

外界猜测他们会自己重新做一个NotebookLM的产品用于更好的商业化，但很有趣的是，有的VC投资人并不看好这个项目。

% f% z( k5 r5 ]' b' K: t# [$ Q邱谆 (Jonathan Qiu)$ c( _0 [ k: g( J% w
3 r7 L& ?; N6 P2 d# ?
华映资本海外合伙人：
" c) q5 H( O6 n/ f$ S( `
5 y7 |- b# \4 h9 I" B你可以理解他是个产品创新。NotebookLM是Google Labs出来的，但Google自己是有底座模型的。Notebook LM用的底座其实也不是Google Gemini，而是谷歌自己内部的一个定制化底座。所以，如果你不是那么懂底座，纯第三方的来用谷歌Gemini API，你未必能做得出来NotebookLM。$ O3 g- o( @, k5 z# a
$ `, f8 T# c& A2 z/ y# D- |
产品创新之上要结合对底座的理解，不然光是产品创新，我觉得可能不能跑得特别远。
$ A" U- @; {2 ]" E0 c* W+ i9 E

总的来说，谷歌Deepmind和Google Brain当中人才密度不会亚于OpenAI，技术也不会落后太多，但2024年谷歌依然是一个“追赶者”的姿态。

究其根本，OpenAI的商业模式是一个大模型提供方，所以一定要保证模型的领先性，但谷歌是完全不同的商业模式，它的首要任务是保证技术不落后且当谷歌搜索被AI颠覆时，自己是准备好的。

所以在多模态的AI第二轮大战中，OpenAI是进攻者，而谷歌依然是防御者，下一场硬仗无论是第二层的reasoning，还是第三层的autonomous AI agent，2025年都会非常精彩。

接下来我们再来说说其它几个主要大玩家。

03 Anthropic:受开发者欢迎却不敌OpenAI

Anthropic是OpenAI除了谷歌之外的最在意的竞争对手了，与谷歌不太一样的是，Anthropic作为大模型的提供方，是OpenAI直接的竞争对手。

2024年在融资上，Anthropic从亚马逊获得了新一轮40亿美元的融资，使得公司估值达到400亿美元。

产品更新上，10月22日，Anthropic发布Claude3.5 Haiku，同时升级了Claude 3.5 Sonnet。

从外界反馈来看，Anthropic的模型在技术上是非常强的，特别是Claude在编码任务中表现出色，尤其是在复杂代码生成和解决方案自动化方面，非常受到工程师们的推崇。

Anthropic的商业模式目前更2B和2D，对企业和开发者群体更受欢迎，但2C方面就不太理想了。

12月底，Anthropic从用户与Claude的对话中随机选取了100万条，进行分析和总结后发现，用户在Claude.ai上的主要使用场景排在第一位的，是网页和移动应用开发，占比为10.4%。

这是因为背后的软件开发人员主要利用Claude执行调试代码、解释Git操作及概念等任务。

很多开发人员认为，Claude 3.5 Sonnet会非常适合需要深度理解和复杂推理的应用程序，而OpenAI的模型对于较简单的任务可能更具成本效益。

而Claude AI的2C聊天机器人，在iOS和安卓移动应用程序上收入100万美元的里程碑，用了整整16周，而这个门槛OpenAI的ChatGPT用了三周就达到了。虽然快于微软的Copilot和Perplexity，但距离OpenAI仍然有很大距离。

之前媒体的报道说，Anthropic在2024年的收入会超过10亿美元，比之前预测的要高很多，说明市场还是非常买账Anthropic的模型能力，特别是最近他们又挖了很多OpenAI的核心人员过去。

看上去，这个OpenAI的最大竞争对手在2025年会继续在2B和2D领域上发力，而对2C消费者端来看，暂时不会对OpenAI和谷歌带来太大的威胁。

我们再来说说马斯克的xAI。

04 xAI:入局虽晚但万事俱备

xAI在2024年做了三件大事：搞定了算力、搞定了融资、开源了自己的大模型。

如果还有其它顺便的事，就是马斯克数次把OpenAI告上了法庭。

12月24日，马斯克旗下的xAI宣布完成60亿美元的C轮融资。英伟达，AMD，a16z，红衫等公司和机构参与，也表明业界对xAI的潜力的看好。

要知道在半年之前的2024年5月，xAI刚完成60亿美元的B轮融资，足以说明马斯克的融资能力。

除了钱之外，马斯克还是第一个搞定大规模算力集群的：2024年，xAI位于美国田纳西州孟菲斯市的数据中心正式投入使用，历时122天建成创下纪录。

这个名为“巨人”（Colossus）的数据中心里面部署了英伟达的10万块GPU芯片，成为全球开发和运行人工智能技术的规模最大、算力最强的芯片集群之一。而马斯克说以后还有计划继续拓展到20万块GPU的规模。

在大模型上发布上，Grok的速度其实是要比竞争对手慢一些的。在8月中旬，xAI发布了Grok-2和Grok-2mini两款AI模型的测试版，比此前发布的Grok-1.5有了非常大的进步。

10月，xAI发布了首个应用程序编程接口(API)。目前，xAI API只有一个模型，称为“Grok-beta”。

其实xAI虽然入局晚了些，但优势还是非常多的：除了上面我们说到的算力和融资之外，xAI还有社交网络X和特斯拉的独家数据，以及机器人Optimus等项目的结合潜力。

相当一段时间以来，Grok的聊天机器人只向马斯克旗下的“X”用户提供，但在2025年很可能马斯克会全面开放Grok。

除了iOS程序在测试之外，网页版Grok.com也已经准备就绪，写着coming soon（准备就绪），感觉2025年xAI会正式加入战局。

马斯克也在X上说，Grok3很快会发布，并且将是一次重大飞跃，我们也拭目以待。

05 Meta:大获全胜或一无所有

接下来我们说一下脸书（Facebook），这家公司在2024年挺有意思。

除了创始人扎克伯格最近的突变形象和婚姻八卦之外，脸书毫无疑问是2024年的科技大赢家之一：单从股价就能看出来，2024年涨了70%左右，Meta的员工们应该都很开心。

虽然Meta不像OpenAI和谷歌那么在大模型前线厮杀，但Meta的策略也非常的明朗：在AI研发上不掉队，且布局下一代的AI应用，结合在硬件、社交媒体以及广告中。

在大模型方面，脸书在2024年持续更新Llama开源模型。12月6日，Meta发布新款Llama开源模型：70亿参数的Llama 3.3、又称Llama 3.3 70B。扎克伯格说，下一步就是明年Llama 4的亮相。

Llama 3.3能实现与2024年7月发布的4050亿参数的Llama 3.1同样的性能，但成本比后者更低。Llama 3.1是迄今为止最大的Llama开源模型，直接对标Anthropic的Claude 3.5 Sonnet和OpenAI的GPT-4o。

除了在大语言模型上的进展外，Meta也一直在探索除了“大语言模型”（LLM）之外的其它AI路径：2024年12月11日，Meta新发布了Large Concept Model（LCM），翻译过来是“大型概念模型”。

它和LLM大语言模型逐字预测不同，LCM的概念是能直接在高纬度语意空间中运算，就像人类思考的方式，并不是一个字一个字地去思考，而是以”概念“和”意义“为单位。所以LCM是Meta完全突破LLM架构的一个创新的尝试。

目前Meta表示这大幅度提升了AI在多语言和长篇内容处理上的效能，但处理的效果和准确度依然需要提升和改进，所以LCM是否是比LLM更好的一种范式，我们拭目以待。

另外，由于Meta 2024年在智能眼镜上的尝试成功，以及旗下Facebook、 WhatsApp、 Instagram、Messenger、Threads等庞大的用户群体，还有AI和广告结合的前景，市场非常看好Meta如今在AI大战中的位置。

Jefferies的分析师甚至将Meta选为步入2025年生成式人工智能的“赢家”。不少二级市场的报告认为，Meta下一代与AI结合的Orion AR眼镜将成为新一代硬件入口，Meta在2024年推出的Ray-Ban Meta很初步的将AI功能引入其中，受到市场好评。

可能在2025年，下一代智能眼镜上Meta就会引入屏幕显示，届时就会释放出更强大的AI交互功能。

说到智能硬件，苹果在2024年发布了Apple Intelligence三件套，我们之前有详细聊过，但因为端侧模型和agent的发展可能还没有到能让硬件产业与AI结合得特别好的程度，苹果在AI进展并不大。

很多人认为苹果最终还是要自己开发底座大模型，不能完全靠接入OpenAI的ChatGPT，而等硬件与AI结合的那一天，就是手机与智能眼镜的市场大战了，目前押注得最大的Meta和苹果将终有一战。

说回Meta的其它AI产品布局：在AI Chatbot方面，Meta旗下的几款王牌社交媒体都已经不同程度的引入了AI对话框，扎克伯格也在12月表示，Meta的AI数字助理“每个月有将近6亿的活跃用户”。

因为Meta不提供独立的AI应用，所以新闻或者业界一般不将Meta的Chatbot直接与ChatGPT或者Claude去做直接对比，但就这些活跃用户的基数而言，Meta的AI产品是有很大优势的。

而最后一点就是AI在广告上的应用潜力。Meta在12月表示，目前超过100万的广告商在使用Meta的GenAI工具，他们在一个月之内制作了超过1500万条广告。

虽然目前AI生成的素材还没有那么精致，但无论是从广告标题和文案的多个版本，还是自动调整广告大小，还是利用文生图、文生视频和文生音乐更高效的制作广告，AI都有非常大的潜力。

同时，也有分析认为，Meta可能会在自家的开源模型Llama上进一步开发出企业级客户服务的业务，也将会是一块很大的蛋糕。

在2024年，小扎非常积极的出现在各个媒体采访中，一遍又一遍阐述着Meta的未来，不再是单纯的Metaverse，而是新一代的AI交互，一个融合了AI，混合现实和元宇宙的未来。

2024年9月，开始在形象和穿搭上大转型的扎克伯格穿了一件T-shirt，上面写着“Aut Zuck Aut Nihil”，这个细节被媒体捕捉到。

这个短语是拉丁短语“Aut Caesar Aut Nihil”的变形，意思是“要么是凯撒，要么什么都不是”；而扎克伯格的“Aut Zuck Aut Nihil”似乎是在宣战：要么赢所有，要么一无所有，All or Nothing。

06 “大而全”的亚马逊

最后几家科技巨头中，再说说亚马逊。亚马逊的路线和其它几家都不太一样，采取的是一个卖铲子生意的模式。

他不拼模型、拼算力、拼芯片，虽然各方面都有自研的产品，但把他们整合在一起，再加上市面上所有的好东西，打个包卖给客户们，帮甲方降本增效，做好2B的生意，也是非常聪明的做法了。

在12月召开的亚马逊云科技re:Invent大会上，亚马逊的最新策略非常清楚：

第一，不但有自研芯片的集群，也有与英伟达芯片合作的算力运行中心；

第二，不光提供满足万亿参数大模型训练和推理需求的自研芯片产品，包括与Anthropic绑定合作的十万张亚马逊Trainium自研芯片AI计算集群，还有为中小企业和初创公司提供能降本增效的服务与技术；

第三，除了亚马逊最新的自研模型Nova系列，各种纯文本、多模态大模型都有，同时在亚马逊Bedrock上还提供上百种市面上最受欢迎的模型选择给客户挑选；

第四，在自己的三层AI架构上加入各种模型蒸馏、解决AI幻觉、安全技术等服务。

对于很多需要用到AI的初创公司，要算力并不一定需要自己买卡，要用模型并不一定要自己训练。就像需要萝卜青菜也并不需要自己去务农种菜，可以去超市直接买，就看最终的成本账能否算得过来了。

这也显示出，亚马逊押注2025年市场对算力的需求只增不减。而随着需求逐渐从训练转移到inferencing推理，算力市场的更多创新服务以及基建会进一步完备。

除了亚马逊云科技，芯片公司本身，像英伟达，AMD，英特尔等芯片公司本身，以及上下游的电力公司以及数据中心服务公司也会继续是市场关注的焦点。

接下来再总结一下2024年那些陨落的硅谷明星初创企业们以及冉冉升起的明星公司。

07 陨落的明星初创企业们

2024年，有三家硅谷明星初创企业迅速跌下神坛。

第一家是Character.ai，成立于2021年，利用大模型生成各种人物和角色风格的对话。

2023年5月，Character.AI在苹果App Store和Google Play Store发布了移动应用程序，第一周下载量就超过170万次，并被Google Play评为2023年度最佳AI应用。

然而，2024年年初，公司被频频爆出融资困难，商业化不顺利，开始寻求收购。

2024年8月，Character.AI宣布，谷歌已经同意向Character.AI支付模型授权费，并将让Character.AI联合创始人兼CEO Noam Shazeer、总裁Daniel De Freitas、以及30名Character从事模型训练和语音AI工作的员工，加入谷歌参与Gemini AI项目，谷歌为此支付的价格是25亿美元。

另外一家公司是Inflection.ai，这家公司做大模型，上面叠加“个人AI伴侣”用途的聊天机器人Pi，主打情感陪伴市场。

一度市场对inflection.ai的模型技术非常认可，但也是因为大模型过于烧钱而资金链没有跟上。

2024年3月，微软挖角了Inflection 的创始人和几乎所有员工，成立了一个新的消费者AI部门，并支付了约6.5亿美元购买其技术许可。

最后一家公司是Adept，也是Transformer原作者出来创业的豪华创始团队。

2024年6月，亚马逊与AI agent公司Adept达成协议，雇佣这家初创公司的大部分员工，并支付约3.3亿美元以授权其技术。

这三家公司的“变相收购案”也在成为硅谷科技巨头拓展AI版图的新模式：既避开垄断监管，又能收人才收技术。

不过这三家公司一个共同点：都同时在发展底座大模型和做产品，但这样的路线被证明太过于烧钱，模型太难以持续。

这就让我想到前面说到NotebookLM团队的人出来自己创业，被投资人认为没有底座模型的能力、只能调用谷歌Gemini的API，所以不被看好。

做大模型吧，太烧钱；不做大模型吧，没有技术壁垒和护城河。这么一看，AI时代的创业真的太难了。

/ W! C  D# j8 [$ y邱谆 (Jonathan Qiu)
- M9 u4 b" G1 U0 v' l6 i
3 W6 z6 Z& _  y5 C4 L0 d华映资本海外合伙人：
9 Y* M- B8 E  m: a5 l8 _! s) n' ^: q9 r' ]' Z# z1 r, _5 i) G
所以你怎么去把控这个节奏？我觉得Perplexity这家公司其实还是把控得很不错的：他到今天也没有完全重新训练自己的底座。我觉得他会有那么一天的，但是他要把握这个节奏，别步子迈得过大，还没到那一天的时候，就已经把钱给烧完了。这个是比较危险的，也是 AI 创业比互联网可能更难一点的地方。4 v/ S; S7 F1 X/ E6 t

08 “当红炸子鸡”项目

Chapter 8.1 Perplexity

再总结一下2025年被认为是冉冉上升的明星AI项目。

首先是前面Jonathan提到的Perplexity：2024年年底，公司完成了新一轮5亿美元的融资，估值达到90亿美元。

这家公司成立于2022年，可以说重新定义了全球第一个对话式AI搜索引擎，月活跃用户已经达到1500万人次，日活跃用户200万人，连英伟达创始人黄仁勋也为它站台，称每天都会使用。

Perplexity的聪明之处在于，自己不训练模型，而是使用多种大型语言模型，包括GPT、Claude、LLAMA、Mixtral等，以及来自多个搜索引擎的排名信号和第三方数据提供商的数据。

它的核心竞争力在于检索、排序和编排的数据整合能力，以及答案生成能力。

但随着AI搜索市场的竞争日益激烈，像OpenAI已经推出了SearchGPT，谷歌也会在AI搜索上跟进，Perplexity在2025年会遭遇更激烈的竞争。商业变现方面，除了付费版本之外，公司已经计划引入广告，这会如何重新定义AI搜索的模式呢？我们也拭目以待。

Chapter 8.2 Physical Intelligence

2024年，硅谷还有另外一家公司非常受人瞩目：Physical Intelligence。

我最开始听到这家公司是从OpenAI联合创始人以及特斯拉FSD前负责人Andrej Karpathy的口中。

他曾在一个小型的聚会上分享说，有很多项目找他投资，他答应的原因只是为了帮助朋友，毕竟他的名字在天使投资人的那一栏能帮很多项目更容易拿到投资。但为数不多的他真心想投资且看好的项目，就当属Physical Intelligence了。

这家公司通过AI模型为机器人打造“大脑”，在2024年11月完成新一轮4亿美元的融资，估值来到20亿美元，投资者包括亚马逊创始人贝佐斯还有OpenAI。

同时，在11月初，Physical Intelligence发布了首个通用基础模型π0，也被是认为具身智能发展上的重要一步。

Physical Intelligence表示，π0将使得机器人变得更容易编程和使用，使其能够更高效地执行多样任务。

目前，Physical Intelligence的π0模型已经能够执行一些简单的多任务，如折叠衣物、组装盒子、动态地将物品放入容器等。

1 o0 k1 }! i$ T  X邱谆 (Jonathan Qiu)2 o$ `1 D. g& V/ \) g" ?5 ~% N4 t% `" F
& `3 J% {7 z- f
华映资本海外合伙人：
' b) F$ S5 x4 Y( n; R1 B( l0 \7 h- ^# A
2024 年最大的进展，我会投给o1和π0。3 [3 Y& |, w+ N4 @3 N5 H

8 i1 J) a( i  i% t( [我觉得π0更多是 training data driven（数据驱动）的路线；o1更代表的是algorithm（算法）驱动的路线。5 P+ {1 [8 W+ v! `
7 m( v9 ~, d7 Q. f  S7 Q( Z# G
π0肯定也要在算法上继续做迭代，也可能在推理侧引入一些方法。当然难一点就是推理，因为具身智能的推理侧要在端侧发生，可能对算力的要求会更高一些。
/ g4 }, i: d( g0 m4 d1 {: [' N

具身智能以及AI机器人模型还在非常早的阶段，因为数据和算法都是挑战，但相信在2025年会有新的进展。

同时，斯坦福的机器人中心在2024年开业了，我也去参加了开业仪式，有机会我们去那里采访一下跟大家分享最新的项目和有意思的进展。

09 2025年的未来

由于篇幅原因，还有很多科技巨头的进展、初创企业和新趋势我们没办法一一列举，包括AI视频生成的初创公司Pika和Luma，音乐生成初创公司Suno，最近很火的AI编程应用Cursor和Devin，李飞飞博士的World Labs、该有2025年初引起一片震撼的DeepSeek等，之后有机会我们详细做成单独选题来聊。

总的来说，2024年的硅谷非常精彩，有混乱，有质疑，有倒闭收购，也有为了AGI信仰继续战斗的科技从业者们。

虽然2024年出现了o1、o3的路线，但更大模型、更强的能力依然是被市场所期待的。

- a/ \% s0 b. P
马腾宇
# m2 u4 H; h5 ]: L
4 J. o! Z. |( ?) s7 y- NVOYAGE AI创始人* W; f/ b, l2 W) j; t
. K& K8 [1 Y! M( J, C$ I% s( `3 [& O
斯坦福大学计算机科学与统计学助理教授：" L0 _( _3 {. u/ N& S
. @' [$ m3 K+ A* u$ g
我一直都在期待更好的技术，不一定要GPT-5，也可能是Anthropic Claude的4、5、6代，或者是xAI、Mistral。
( z& Y7 b+ e' V! r& v: K; {- q' C. E$ G; l
我认为，虽然现阶段的GPT-4可以做的事越来越多了，但是更大、更强的模型在某种意义上会让模型的使用变得更容易。所以，如果有了GPT-5或者Claude 4、5，那么基于GPT-4的一些自我工程可能就不再必要了。
) m7 U1 R4 [ G) C" ?/ n

, Y a; A3 e) D" H4 v: x
Bill Jia
4 y5 Z3 S1 q! W# V( t' P
( m, o, a. x, d; B3 C1 P谷歌CORE ML/AI工程副总裁：
* T- ]5 `: l Z; G0 T) [
1 J" t. [, i$ B, m% p) O对于那些有资本、有资源、有工程能力的大公司来说，他们会继续构建大模型。大模型在很多不同方面表现得更好，特别是在通用场景中。& b# W/ i. p- V" P
3 n6 G' J, v" Q+ _1 D
然后基于大模型，人们会构建各种不同的垂直模型。刚开始垂直模型也比较大，但随着包括蒸馏模型、量化模型等技术，模型会变得更小但是更有效率、更有性价比，而且模型质量不会下降太多。
- a. u( t( @6 k
1 ^% R. X& S+ J% ~/ j: s* @. [我认为这两条主线将会持续很长一段时间，希望有第三种并行努力的方向，那就是寻找不同的模型架构，因为现在的模型基本都是基于Transformer的，还有一些基于diffusion模型用于生成图像等中间工作。我希望能有其他非transformer、非diffusion的模型架构出现，让生成结果更有效、更高质量、同时降低成本。如果在这方面能有所突破，将再次对AI行业产生巨大的影响。1 I5 P3 e' T' a: m8 r

在硅谷的AI生态中，已经衍生出了多个派系：有更大的模型、大模型衍生出的垂直模型、不信仰Transformer而在探索其它通往AGI路径的研究者，同时也有应用、硬件、agent智能体、机器人、无人驾驶，还有“卖铲子”的英伟达、数据中心、电力上下游等等，这些生态在2024年得到了进一步的巩固与布局，而在2025年，我们会看到更多技术的进展。

当然，硅谷只是AI发展的其中一个主力战场，全球其它市场的AI也有非常快速的发展，今天我们只是稍微总结了一些硅谷的情况，也欢迎大家给我们留言最值得提的公司，技术或者事件，这对我们团队更进一步探索AI产业非常有帮助。

2025年，我们会在硅谷继续为您带来更多的AI前沿分析。

混乱、分裂、吞并：2024年AI的信仰之战

浏览过的版块