深度复盘 深度复盘什么意思
1月27日一早,DeepSeek在中国区和美国区苹果App Store不收费榜上同时冲到了下载量第一,超过原先霸榜的ChatGPT,这也是国内应用第一次实现这一成就。而半个月前(1月11日),DeepSeek的App才刚刚上线iOS和安卓的应用市场。
当天晚些时候,DeepSeek应用程序开始出现宕机。企业称其服务受到了大规模恶意攻击,因此将暂时限制新用户注册。当晚开盘的美国科技股则集体大跌——费城半导体指数(SOX)下跌9.2%,创下2024年3月以来的最大跌幅。其中英伟达股价下跌近17%,市值蒸发近6000亿美元,规模创美股史上最大。除了这些之后,博通、台积电、ASML、Google和微软也分别跌了17.4%、13%、7%、4%和2.14%。就连WTI原油盘中也一度下挫3%,由于有交易员认为,如果大模型的训练和推理不再需要那么多算力,那么数据中心的电力需求也会减少,天然也不需要那么多石油来发电。
▲DeepSeek称DeepSeek-R1模型在各项能力上追平OpenAI o1。
DeepSeek是一家位于杭州的大模型企业,2024年才创立。2024年年中之前,这家企业并没有引起市场几许关注。但2024年最后壹个月,它密集公开了多个模型。其中圣诞节后公开的名为DeepSeek-V3(下面内容简称「V3」)的模型,宣称在性能上「等于于」业界领先的闭源模型GPT-4o和Claude-3.5-Sonnet,「优于」最好的开源模型Meta的Llama 3,且总训练成本仅为557.6万美元,这个数字只有(据估计投资超过5亿美元)前者的1%;临近2025年农历春节的1月20日,它又公开了壹个名为DeepSeek-R1(下面内容简称「R1」)的模型,同样的,DeepSeek在论文中声称R1模型「在一系列任务上实现了和OpenAI o1等于的性能」。
1月29日,彭博社引述标准不具名的知情人士报道,称微软的安全研究人员在2024年秋季发现DeepSeek的员工运用OpenAI的API窃取了大量数据,言下之意是这些数据也许被用来训练V3或R1模型。然而OpenAI明确规定不允许其他企业运用其模型生成的数据训练模型,2024年年中,字节跳动就曾因类似行为和OpenAI发生摩擦。目前DeepSeek暂未对此言论发表回复。
麻烦不止于此,同日意大利当局标准 DeepSeek 提供有关该企业怎样处理用户数据的信息,DeepSeek将有20天时刻来准备答复,目前DeepSeek已从意大利地区苹果和Google的应用商店下架了应用。
外界对于DeepSeek仍存在大量质疑,比如其模型是否只是美国先进模型的蒸馏模型、其创造是否真的重要,以及美国科技股是否反应过度。这些难题DeepSeek其实在技术报告中基本都回答了。
1. DeepSeek引起的全球技术圈恐慌是怎样形成的?
1月27日的市场震荡比DeepSeek在模型论文中发表的惊人数据晚了差不多壹个月。直到2025达沃斯论坛(1月20日至24日)上,虽然已有不少人谈起DeepSeek,但意见也多为保守或充满质疑的。比如DeepMind首席执行官Demis Hassabis就在达沃斯声称,DeepSeek的模型的确有些「出人意料」,但他表示「对DeepSeek模型的职业原理并不确定,包括它在多大程度上依赖其他美国企业模型的结局」。
在这种怀疑「V3是个蒸馏模型——蒸馏了美国的前沿模型」的见解之外,另外一种不愿相信DeepSeek成果的声音代表来自Scale AI的首席执行官Alexandr Wang。他在接受CNBC采访时声称,DeepSeek拥有5万块英伟达最先进的AI芯片H100,言下之意是DeepSeek违反了美国的芯片禁运政策,才取得了模型突破。由于芯片管制,2024年秋季起,英伟达就不再给中国市场提供其顶尖端的AI芯片H100,取而代之的产品是内存和带宽都更受限的H800——性能仅为H100的一半。
然而和此同时,Meta员工在匿名网站称,DeepSeek仅用1%的投入就实现了超越Llama 3的性能这件事,已经使企业AI团队陷入恐慌,特别是思考到企业正在训练的下一代模型Llama 4的预期投入比Llama 3还要贵好几倍。技术媒体The Information紧接着报道称,Meta成立了4个专门研究小组来研究DeepSeek的职业原理,并基于此来改进Llama。在V3公开之前,Llama是全球能力绝顶的开源模型,直到V3公开后取而代之。
如果只有V3的效率,DeepSeek也许并不能引起足够注意。1月20日公开的R1模型为DeepSeek的热度添了重要的一把火——这一个类o1的推理模型,而且即刻就能在应用程序中尝试到。和ChatGPT等其他聊天机器人的不同之处在于,DeepSeek的同名聊天机器人在答复用户提问时,会将思考链条(Chain of Thought,CoT)完全展示出来,其作为机器人认真揣摩用户需求、试图将用户全部说出口或隐晦表达的心情都安慰到位的「内心活动主题」激发了大量用户的热诚。商业的本质在于创新稀缺,无论在人类成员还是AI成员中,共情能力都是稀缺品。
▲DeepSeek在自言自语时更有「人味」。
CoT是类o1模型都在进步的一项能力,人类差不多也是如此进行推理的。然而这类思索经过同时也是各人工智能企业想要保密的重要数据资产。如果你在ChatGPT中询问它的o1模型是怎样思索的,几次之后,OpenAI也许就会发邮件给你警告要撤销你的账号了。
风险投资机构Andreessen Horowitz (a16z)的创始人安德森(Marc Andreessen)对R1的描述是「人工智能的Sputnik时刻」,Sputnik是苏联于1957年第一次发射的人造卫星。另外一些人则称DeepSeek这一系列模型的公开是美国AI界的「珍珠港事件」。意思是作为全球人工智能领域的技术高地,美国正在失去自己所建构的AI商业玩法和技术护城河。
2. DeepSeek-V3到底取得了如何的突破?
DeepSeek的突破来自于两个层面:低成本和推理能力。其中,V3的突破主要在于训练成本和计算效率,R1开辟了训练推理模型的新途径。
具体来说,V3的采用了优于传统MoE(专家模型)架构的DeepSeekMoE架构,以及优于传统多头注意力(MHA)的DeepSeekMLA(多头潜在注意力)。
● DeepSeekMoE(Mixture of Experts,混合专家)
传统稠密模型,比如GPT-3.5,在训练和推理经过中激活全部参数。然而事实上,并非模型的每个部分都是当上一任务所必需的。因此,MoE的理念是将模型区分为多个「专家」,推理时只激活对任务必要的专家。GPT-4也一个MoE模型,据说有超过1.67万亿个参数,其中大部分参数分布在16个专家模块(如FFN层)中,每次完成特定任务时,大约一到两个专家会被激活,因此大大降低了计算量。DeepSeek的V3拥有6710亿参数,其中活跃专家中的参数总和为370亿。
DeepSeek在V3模型论文中称,相较于传统MoE,DeepSeekMoE运用了「更细粒度」的专家,使专家更加专门化,单个专家仅数十亿参数,提高了任务适配性;同时,DeepSeekMoE将一些专家隔离为「共享专家」,用于减轻专家之间的姿势冗余,从而使V3模型在激活相同数量专家和参数的情况下表现更好。
● DeepSeekMLA(Multi-Head Latent Attention,多头潜在注意力)
多头注意力(Multi-Head Attention,MHA)是生成式AI计算的核心机制,它让模型可以同时关注用户输入的不同层面,并行处理这些不同维度的信息,再将其整合起来完成响应。这一并行处理经过和图像处理中的并行计算类似,因此过去用于图形处理的GPU(Graphics Processing Unit)成了AI计算的理想硬件平台。
不过这一经过同时会产生大量缓存,限制了推理效率。DeepSeekMLA找到了一种对其中的缓存数据进行联合压缩的方式,从而大大减少推理期间的内存运用,保证高效推理。DeepSeek在论文中称,得益于这些创造,其V2模型(V3模型的上一代)在单节点搭载8块H800 GPU的情况下,实现了超过每秒5万个token的生成吞吐量,是上一代模型最大生成吞吐量的5.76倍。
● MTP(Multi-Token Prediction,多tokens预测)
传统大模型回答用户需求时只预测下壹个token,V3通过MTP技术同时预测下2个token。这里的决定因素是第二个预测token的准确性难题(即「接受率」,预测的token能被最终采用的比例)。DeepSeek评估称,在不同生成主题中,其模型所生成的第二个token的接受率达到了85%至90%。这种高接受率意味着V3能够以接近传统单token预测玩法两倍的速度来生成文本。
● FP8:低精度训练
FP8的意思是8位浮点(floating-point),数字越高,意味着计算精度越高,但和此同时计算速度会降低。DeepSeek运用了FP8数据格式来训练V3,并在模型计算的不同环节实现了数据在FP8、BF16、FP32等不同精度下的灵活和交替运用,即一种混合精度框架。在参数通信的部分经过,DeepSeek也做到了FP8精度的传输。通过这一经过,DeepSeek实现了加速训练和减少GPU内存运用,并「第一次在超大规模模型上验证了FP8混合精度训练框架的有效性」。
DeepSeekMoE + DeepSeekMLA架构早在DeepSeek开发V2模型时期就已开拓,V2模型验证了这一组合可以在保持性能的前提下兼顾高效训练和推理,V3不过是在此基础上进行了多项改进。真正使得V3模型在能力上超越Llama 3的,是另一项创造——自我奖励。
● 后训练(post-training):自我奖励
在进行了差点两个月的预训练、花费了266.4万个GPU小时后,DeepSeek又用0.5万个GPU小时对V3进行了一种以「自我奖励」和蒸馏为主的后训练。
强化进修的典型案例是AlphaGo,通过为模型提供围棋制度,并告知它如何算是赢得比赛,接着模型就会自己找到满足这一切目标的途径。不过这种机器进修方法中的最大难题是怎样配置奖励函数,数学、编程、围棋等推理能力标准高的领域通常具有明确的答案,边界分明,然而除此之外的其他生活领域却未必如此。OpenAI的o1模型公开之后,外界充满了对其到底对强化进修经过配置奖励函数的好奇。OpenAI不再open后,DeepSeek在其论文中表明了它是怎样给V3模型配置奖励函数的——直接将V3模型自身作为奖励生成模型,自己决定是否奖励自己。
DeepSeek将V3的判断能力和GPT-4 o和Claude-3.5的判断能力进行了相对,称V3的性能和GPT-4o-0806和Claude-3.5-Sonnet-1022的最佳版本等于,而且,V3的判断能力还可以通过投票技术来增强。因此,DeepSeek将V3的评价和多次投票结局作为「奖励函数」,为放开式难题提供自我奖励。
▲DeepSeek认为,有判断能力的基础模型本身就是足够好的奖励模型。
「LLM(大语言模型)本身就是一款多功能处理器,能够将来自不同场景的非结构化信息转化为奖励,最终促进LLMs的自我完善。」DeepSeek在发表V3模型的论文中称,意思是如果壹个大模型足够杰出、有判断力,那么它应该像杰出的人类一样,足够用来对AI的回答作出评价。这一经过是V3模型超越Llama 3的决定因素。
3. 何故DeepSeek做到了这种低成本,其他厂商尤其美国厂商没有做到?
「资源的诅咒」一词用在这个时候再合适不过了。相较于中国厂商,美国大模型企业们都有多得多的现金和算力为其大模型开发开路,英伟达也在不断推出算力更强大同时也更昂贵的芯片满足这些大厂的需要。大模型的Scaling Law(缩放定律)早就从模型本身给上延伸至了资金环节。不少大模型厂商——不止国内,都因预训练的昂贵在去年下半年退出游戏。
对那些资源丰盛的大厂而言,阻力最小的方式是大肆招聘、付款高薪以及给英伟达付款高昂费用。而DeepSeek-V系列的几乎全部创造都和适应带宽受限的H800芯片有关。
4. DeepSeek-V3是个蒸馏模型吗?
V3的训练成本公开之后,外界对它的最大质疑就是它也许是个从其他先进模型那里蒸馏出来的模型。
在V3、R1模型的相关论文中,DeepSeek的确都在小编觉得强调了在蒸馏技术上的寻觅。比如在V3模型中,DeepSeek就运用了从DeepSeek-R1系列模型中提取的推理能力——R1作为教师模型生成了80万训练样本进行训练。「从DeepSeek R1系列模型中提取推理CoT(思考链),并将其纳入标准LLMs(大语言模型),特别是DeepSeek-V3。大家的流水线将R1的验证和反思玩法优雅地整合到了DeepSeek-V3中,显着进步了其推理智能。」DeepSeek在论文中称。
除了将从R1系列模型中提取的80万思考链样本用以训练V3,DeepSeek还进一步寻觅了将这些数据应用于阿里巴巴旗下的Qwen2.5系列模型后的效果。DeepSeek在论文中称,经过这种后训练的Qwen系列模型(DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Qwen-32B)效果「明显优于之前的版本,并和o1-mini等于」。「大家证明了较大模型的推理玩法可以被提取到较小的模型中」,DeepSeek称,这为大模型的「后训练」优化提供了壹个有希望的新路线。
不过,这些尝试并不意味着DeepSeek的低成本模型V3本身是个蒸馏模型。根据其论文中的说法,V3的上一代模型V2运用了8.1万亿个token数据训练,V3模型的预训练数据扩展到了14.8万亿。论文显示,V3总共运用了约280万GPU小时(包括266.4万小时预训练、11.9万小时上下文长度训练和0.5万小时后训练),完成了约39.7亿亿次浮点运算。这个计算量和训练14.8万亿token的数据集的学说需求相符。也就是说,按照DeepSeek的DeepSeekMoE+DeepSeekMLA架构、用FP8的低精度训练和传输数据、一次预测多个token,DeepSeek的确可以做到差点600万美元的成本。这是个合理数字。
5. 相较于DeepSeek-V3,DeepSeek-R1提高在哪里里?
V3模型和R1系列模型都是基于V3模型的更基础版本V3-Base开发的。相较于V3(类4o)模型,R1(类o1)系列模型进行了更多自我评估、自我奖励式的强化进修作为后训练。
在R1之前,业界大模型普遍依赖于RLHF(基于人类反馈的强化进修),这一强化进修玩法运用了大量由人类撰写的高质量问答以了解「啥子才是好的答案」,帮助模型在奖励不明确的情况下了解怎样作困难的选择。正是这项技术的运用使得GPT-3进化成了更通人性的GPT-3.5,制造了2024年年底ChatGPT上线时的惊喜尝试。不过,GPT的不再提高也意味着这一玩法已经到达瓶颈。
R1系列模型言败了RLHF中的HF(human feedback,人类反馈)部分,只留下纯粹的RL(强化进修)。在其首代版本R1-Zero中,DeepSeek等于激进地启动了如下强化进修经过:为模型配置两个奖励函数,壹个用于奖励「结局正确」的答案(运用外部工具验证答案的最终正确性),另壹个奖励「思索经过正确」的答案(通过壹个小型验证模型评估推理流程的逻辑连贯性);鼓励模型一次尝试多少不同的答案,接着根据两个奖励函数对它们进行评分。
▲DeepSeek称,R系列模型在强化进修中涌现出了「反思」能力。
DeepSeek发现,由此进入强化进修经过的R1-Zero生成的答案可读性较差,语言也常常中英混合,但随着训练时刻增加,R1-Zero能不断「自我进化」,开始出现诸如「反思」这样的复杂行为,并寻觅化解难题的替代方式。这些行为都未曾被明确编程。
DeepSeek称,这种「啊哈时刻」出现在模型训练的中间阶段。在此阶段,DeepSeek-R1-Zero通过从头评估其初始方式来进修分配更多的思索时刻。「这一刻彰显了强化进修的力量和美好——只要提供正确的激励,模型会自主开发顶级化解难题的策略。」DeepSeek称,经过数千个这样的「纯强化进修」流程,DeepSeek-R1-Zero在推理基准测试中的性能就和OpenAI-o1-0912的性能相匹配了。
DeepSeek在论文中说,「这是第壹个验证LLMs的推理能力可以纯粹通过RL(强化进修)来激励,而不需要SFT(supervised fine-tuning,基于监督的微调)的放开研究。」
不过,由于纯强化进修训练中模型过度聚焦答案正确性,忽视了语言流畅性等基础能力,导致生成文本中英混杂。为此DeepSeek又新增了冷启动阶段——用数千条链式思索(CoT)数据先微调V3-Base模型,这些数据包含规范的语言表达和多步推理示例,使模型初步掌握逻辑连贯的生成能力;再启动强化进修流程,生成了大约60万个推理相关的样本和大约20万个和推理无关的样本,将这80万个样本数据再次用于微调V3-Base后,就得到了R1——前面提到,DeepSeek还用这80万个以思考链为主的数据微调了阿里巴巴的Qwen系列开源模型,结局表明其推理能力也提高了。
6. DeepSeek彻底化解推理难题了吗?是否意味着AGI不需要新范式?
DeepSeek在V3模型上的创造都是工程上的,其突破的更大意义在于改变大模型的既有商业玩法以及美国对华的芯片制裁——V3的大量创造都和为克服运用H800而不是H100所带来的内存带宽不足有关。为此,DeepSeek甚至绕过了英伟达的编程工具CUDA,对每块H800芯片上132个处理单元中的20个进行了从头编程,以专门用于管理跨芯片通信。
相较而言,R1在纯强化进修上的寻觅至少达到了和OpenAI o1等于的水平,o1背后的技术是否和R1相同的难题目前未知,OpenAI没有公开过其o1模型的强化进修方法。不同大模型企业在强化进修中配置奖励函数的方法从来都千差万别。
不过,还不能说R1彻底化解了推理难题,至少只要基于o1的代操作AI——Operator还不能像人一样自如操作各种电子设备,就不能说这种水平的AI就是通用人工智能了。目前,Operator学说上可以根据用户标准执行鼠标和键盘允许的全部操作:只要用户口头交代一下,它就可以帮用户订外卖或查找旅游路线;遇到难题或者操作出错时,它能利用强化进修带来的推理能力自我纠错;实在无法化解难题时,它会将控制权交还给用户——就像自动驾驶一样,AI遇到无法决策的困境时会将路线盘交还给人类司机。也和自动驾驶一样,这种「接管率」将是观察基于强化进修的AI是否在提高的指标其中一个。
7. DeepSeek的成果会怎样影响AI产业的未来?
美国科技股1月27日的表现已经初步表明了DeepSeek接连公开的多少模型对市场的影响力大致和范围。
DeepSeek的低成本模型公开之际,美国总统特朗普刚刚公布壹个总额达5000亿美元的AI基础设施项目,OpenAI、软银等都已承诺参和其中。稍早前,微软已经表示2025年将在AI基础设施上投入800亿美元,Meta的扎克伯格则规划在2025年为其人工智能战略投资600亿至650亿美元。DeepSeek的低成本模型使大众开始怀疑这些规模惊人的投资是否是种浪费,如果只用数百万美元,而不是数亿元,就能训练壹个4o等级的模型,那大模型对于GPU芯片的需求也许只是当下的1/10甚至1/100。
英伟达的股价因此跌得最最牛,不过长远看,受冲击最大的不一定是英伟达,而会是其他自研大模型并根据模型调用建立商业玩法的企业,OpenAI、Anthropic、月之暗面、字节跳动等都属于这一范围。推理成本上,OpenAI o1每百万输入和百万输出token分别收取15美元和60美元,而DeepSeek R1同样输入和输出的价格分别只要0.55美元和2.19美元,差不多只是前者的3%。此前,OpenAI给运用其最先进模型o1的用户收取每月200美元的订阅费,而且仍然处于折损情形并打算提价,DeepSeek R1的出现也许令ChatGPT的提价规划泡汤。
除了这些之后,一大批中国大模型企业比如字节跳动和月之暗面2024年花在用户增长上的广告费也许会打水漂。数据监测企业Sensor Tower的数据显示,自现在1月11日上线以来,DeepSeek App的累计下载量已超过300万次,其中,80%的下载量集中在1月20日至1月26日的一周内。如果保持这种增速,DeepSeek不久就会进入有千万用户的AI应用阵营。
股价大跌近17%后,英伟达在一份声明中称,DeepSeek的成果证明了市场对英伟达芯片的需求会更多(而不是更少)。这一说法有一定道理,由于当模型训练和推理都变得更实惠、只需要消耗更少算力,人工智能的商业化可以进展更快,比如,R1的小型版本能够在普通家庭PC上运行,这将有助于推动AI应用的普及和民主化——像苹果这样为大模型提供终端设备的企业会是赢家。1月27日的美国科技股大跌中,苹果也是仅有的两家没有下跌的技术企业,另一家是拥有云计算业务的亚马逊,它同样在自研大模型上落后,但拥有无论啥子模型都需要的云计算生意。
相较于训练环节,进入商业化后的推理环节会消耗更多倍的算力。而且,更有效的运用计算的方式并不意味着更多的算力没有用。不过短期内,给英伟达大手笔下单的技术企业们会变得更谨慎。
当然,最大的赢家还是消费者。
8. 何故幻方——一家量化投资企业——要大力投资人工智能?
DeepSeek由梁文峰于2024年12月创立,在此之前,他于2024年成立了名为「幻方量化」(High-Flyer)的量化对冲基金,该基金通过AI解析金融数据从而作出交易决策。2024 年,幻方量化成为国内首个募资超过1000亿元的的量化对冲基金。
虽然一直有声音认为金融市场就像变幻莫测的天气一样无法预测,这些人也许正确,但1980年代以来,不断有数学家和计算机科学家希望为价格建模,并据此赚到钱。1988年至2024年的30年间,美国量化投资巨头文艺复兴科技创新了39.1%的年化复合收益率,远超过巴菲特、索罗斯等传统靠人来决定什么时候下注的投资大师。
这些量化基金并不追求预测金融市场下一刻的价格,而是专注于寻找发现市场中存在特定的价格玩法。比如「24小时效应」玩法:周一的价格变化常常是周五动向的延续,而这个动向到了周二就会反转(24小时效应);「周末效应」:如果市场在周五展现出清晰的上升动向,那么周五收盘前买入再到下周一一早卖出,也大概率会赚钱;再比如有的资产一旦第一天升值了,它第二天大概率会继续升值,反之亦然。这些有预测能力的金融信号就此成为量化基金们用以指导投资的交易因子(indicators),虽然潜在盈利空间没那么大,只要交易频率够高(和价格投资倡导的刚好相反),量化基金们就能吃到市场的肥尾。
大模型擅长从大规模数据中寻找玩法,这种能力正对热衷从金融数据中寻找交易因子的量化基金的胃口。幻方量化也不例外。DeepSeek目前尚未推出相应的金融投资大模型,不过这只是时刻难题。(作者:吴洋洋)
(来源:新皮层NewNewThing)