DeepSeek-R1是怎样炼成的?

自言自语, 自娱自乐。   
打印 被阅读次数
近日,中国新创AI公司DeepSeek发布了他们的推理模型DeepSeek-R1,引发了全球科技圈的震动。包括七大科技公司、华尔街,甚至白宫在内的多个机构都密切关注这一事件。 DeepSeek-R1的发布被视为一次重大突破,在编程、数学、逻辑推理等方面表现出色,其性能与目前公开发布的最强推理模型OpenAI o1不相上下。更为重要的是,DeepSeek-R1以开源形式提供给全球研究人员和开发者使用,展示了其真正开放的精神,其影响力之大难以估量。英伟达的AI科学家Jim Fan在社交媒体上称赞DeepSeek-R1为“真正开放、赋能所有人的前沿研究”。多个权威媒体也纷纷报道了DeepSeek-R1,并对其强大性能给予高度评价。

然而,围绕DeepSeek-R1的训练过程也产生了不少质疑声。最大的问题在于,DeekSeek公司借助2048块英伟达H800 GPU组成的集群,仅用约两个月时间就完成了拥有6710亿参数的混合专家(MoE)语言模型训练,效率比Meta等人工智能行业领军企业高出10倍,DeepSeek-R1的训练成本仅为OpenAI o1的3%-5%。

人们怀疑DeepSeek是否真的能在如此短的时间内,用相对较差和数量有限的GPU资源训练出如此强大的模型。一些评论者认为,DeepSeek或许在技术报告中夸大了其训练过程的效率和资源利用。而另一部分则认为,这可能是DeepSeek在技术上取得了巨大的进步,从而实现了这一看似不可能的任务。

本文是一篇科普性文章,旨在通过公开的信息和材料,尤其是DeepSeek的技术报告,深入浅出地探讨DeepSeek-V3和DeepSeek-R1的训练过程。我们将深入剖析其训练方法,评估其所宣称的技术和资源利用效率,并尽量用通俗易懂的语言表达我们的观察。希望通过这篇文章,为非AI科技圈的读者提供一个客观、公正的分析视角。

DeepSeek是一家专注于人工智能和大型语言模型的公司,成立于2023年5月,由中国对冲基金幻方量化创立,创始人为梁文锋。公司的团队主要由中国顶尖大学的应届博士毕业生组成,是一个精干而全面的团队,涵盖基础硬件、计算中心系统架构、AI算法、大型软件架构和数据科学等领域的专家。这支团队年轻、高效,紧密合作,能够快速学习并利用最新技术在他们的大模型研发中。

2024年12月底,DeepSeek发布并开源了DeepSeek-V3模型,其性能可比肩当前的顶级闭源模型。最令人印象深刻的是,DeepSeek-V3的训练成本仅为GPT-4的二十分之一,且仅用了两个月时间和不到600万美元的投入。 2025年1月,公司又推出了推理模型DeepSeek-R1,在多项测试中达到或超越了OpenAI o1模型。DeepSeek的成就和创新方法在全球AI圈引起了广泛关注,展示了中国AI企业的强大创新能力。

在DeepSeek-V3推出之前,训练AI大模型一直被认为是一项极其昂贵的任务。首先,需要数以万计价格昂贵的高性能GPU。其次,训练这些模型所需的数据中心构建也非常复杂昂贵,需要最先进的硬件和网络设施。此外,数据中心的电力消耗也是一个重大成本因素,高功耗和冷却系统的维护费用都十分惊人。

2025年1月21日,新任美国总统特朗普在白宫亲自宣布了一项名为“星际之门”(Stargate)的AI基础设施投资计划,预算高达5000亿美元。该计划由OpenAI、日本软银集团和美国甲骨文公司共同参与,旨在大规模提升美国的AI基础设施。特朗普总统在讲话中强调,这项计划将推动美国在全球AI竞赛中的领先地位,确保美国在未来的科技领域占据主导地位。

所有这一切,勾勒出人们心目中AI统治未来世界的图景。在许多人看来,未来大概率只有一个AI巨头。在特朗普看来,这个公司必须在美国;在山姆·奥特曼的视野中,这个唯一的公司非OpenAI莫属。这个AI巨无霸掌握着AGI甚至ASI级别的大模型,是一个银河帝国般的存在,屹立在云端星际,俯瞰整个世界。从全球的工业制造、农业生产,到交通运输和生活娱乐,无不在他们的掌控之中。

然而, 好像DeepSeek的出现击碎了他们的幻想。 

关于DeepSeek-V3和DeepSeek-R1的功能, 虽然不泛争议, 但大多数人都同意, 均达到了现在顶尖闭源大模型的水平, 分别与ChatGPT 4o, ChatGPT o1相当。  关于DeepSeek公司极其大模型的主要争议是, DeekSeek训练时是不是真的只用了2048张阉割版的H800 GPU和短短的两月时间? 另一个争议是,DeekSeek会对全球特别是美国的AI产业造成什么样的影响, 将如何重塑未来的AI产业大格局。

那么,DeepSeek是如何在有限的计算资源和较低的训练成本下,训练出能够与OpenAI o1比肩的大模型呢?概括来说,尽管DeepSeek依然采用了Transformer架构,但他们在架构和算法的各个方面都进行了极致的优化,并融入了令人赞叹的创新,应用了最新的技术。接下来,我们将根据公开的资料,特别是DeepSeek-V3和DeepSeek-R1的技术报告,探讨DeepSeek在训练大模型的过程中,如何将最新技术应用于模型架构、算法和软硬件系统,以及如何对每一个细节进行极致的改进和优化。

2024年12月发布的DeepSeek-V3虽然不如2025年1月发布的DeepSeek-R1那么轰动, 但DeepSeek-V3是通用型大语言模型,它在某些方面也非常表现出色,  DeepSeek-R1是在DeepSeek-V3基础上训练出来专为复杂推理任务而设计的模型,中间还有一个过度性的推理大模型DeepSeek-R1-Zero。

为了全面透彻地了解为什么DeepSeek-R1如此强大,并导致高科技七巨头纷纷感到巨大压力,我们将从DeepSeek-V3开始,逐步分析DeepSeek-R1-Zero直至DeepSeek-R1的每个阶段。

DeepSeek-V3:高效构架与创新技术的结合之道

1. 高效的模型架构: 混合专家模型(Mixture of Experts, MoE)

DeepSeek-V3采用了混合专家模型(Mixture of Experts, MoE),然而这种技术并不是他们的新创。MoE的概念最早由Geoffrey Hinton和Michael I. Jordan等人在1991年提出。事实上,目前大多数AI大模型都使用了MoE技术,尽管也有一些不依赖MoE的大模型,例如Anthropic的Claude和Meta的LLaMA系列。至于OpenAI,因为他们的信息不够公开透明,所以我们无法确定他们的ChatGPT 3.5和ChatGPT 4.0是否采用了MoE架构。

对比MoE构架, 传统的Transformer构架也称为密集Transformer构架,MoE通过组合多个“专家”模型来处理复杂任务。每个专家模型专注于输入数据的不同部分,而门控网络(Gating Network)决定如何加权这些专家的输出。MoE 的核心思想是将任务分解为多个子任务,由不同的专家处理,从而提高模型的灵活性和性能。MoE 在自然语言处理、计算机视觉等领域表现出色,尤其适合处理大规模数据和复杂任务。通过动态分配计算资源,MoE 能够高效利用硬件,同时保持高精度和泛化能力。

俗话说:“三个臭皮匠顶个诸葛亮。” 如果把密集Transformer架构比作费了很大劲儿培养出来的一个诸葛亮,那么混合专家模型(MoE)就像是用较小成本培养了一群‘臭皮匠’。从远处看,密集Transformer架构和MoE架构的大模型都像一个大脑袋。走近一看,你会发现MoE的大脑袋里其实装了几个各自负责不同任务的小脑袋。

DeepSeek的混合专家模型叫DeepSeekMoE架构, DeepSeekMoE框架的独特之处在于它的细粒度设计和共享专家策略是。其它的 MoE 模型每层可能有几个到几十个专家,例如,马斯克的 xAI 公司的 Grok-1 采用了 8 个专家的 MoE 架构,每处理一个 token 会从中激活 2 个专家。DeepSeekMoE框架的每个 MoE 层由 1 个共享专家和 256 个路由专家组成,每个专家的中间隐藏维度为 2048。在这些路由专家中,每个 token 将激活 8 个专家。

DeepSeekMoE架构中的共享专家策略是一项重要创新,包括专家分类、特点、目的和优势。专家被分为共享专家和独立路由专家。共享专家数量固定且较少,每个MoE层通常包含一个,始终处于激活状态,负责捕获和整合不同上下文中的共同知识,减少知识冗余,提高参数效率,并允许独立路由专家专注于更专业化的知识。共享专家策略提高了模型的泛化能力和整体效率,减轻了其他路由专家之间的参数冗余,与细粒度专家分割相结合,实现了更高效的模型架构

这种精细的 MoE 设计在工程上非常复杂且极具有挑战性。由于缺乏足够的高性能 GPU,DeepSeek 团队不得不面对这个艰巨的任务。通过精心设计和努力,他们克服了这些困难,功实现了如此细粒度的架构,使模型在效率和性能方面达到了新的高度。这种创新无疑为 AI 领域树立了新的标杆。

在训练过程中,每个token在每个MoE层中仅激活8个路由专家,最多可路由至4个节点。这种方法被称为稀疏激活。稀疏激活机制可以在不显著增加计算成本的情况下,大幅扩展模型容量。

细粒度专家系统和稀疏激活具有明显的优点。首先,通过减少连接和激活的数量,大大减少了网络的参数量,从而降低了模型的存储需求和计算开销。此外,稀疏的连接和激活模式使模型更加可解释,有助于理解模型的决策过程。限制连接和激活还可以减轻数据噪声和冗余信息的影响,提高模型对干扰和变化的鲁棒性。通过提取最相关和最重要的特征,增强了模型的泛化能力,有效减少了过拟合的风险。此外,通过只保留最重要的激活值,大大减少了计算量和内存使用,同时几乎不影响模型性能。 

同时,这些技术的缺点也是显而易见的。首先,实现复杂度较高,需要复杂的路由机制和专门的硬件支持,增加了实现的难度。其次,在训练阶段可能需要更多的计算资源来优化专家分配和激活模式,这对于资源有限的团队来说是一个挑战。此外,精心平衡专家数量、激活策略和模型性能,需要大量的实验和调优,也是一个复杂的过程。 

这些技术尚未被其他公司广泛采用的原因包括:首先,技术成熟度相对较低,许多公司可能还在观望或研究阶段。其次,这些技术在某些特定任务上表现出色,但在其他任务上的效果可能不如传统密集模型。此外,稀疏模型的维护和更新可能比密集模型更复杂,增加了长期维护的成本。某些稀疏激活方法可能会增加训练时间,使整体计算复杂度上升。

其它大模型不使用MoE结构的原因还包括:管理多个专家网络和门控网络增加了模型的复杂性,从而提高开发和运营成本。传统的稠密模型通常更稳定,而MoE模型的稳定性可能受到门控网络和专家之间相互作用的影响。尽管MoE模型在某些方面更高效,但对GPU显存的高需求可能超出一些研究团队或公司的资源能力。最后,一些研究团队更倾向于使用结构更简单、更容易理解和调试的传统模型架构,以简化开发过程和减少潜在问题。

尽管存在这些挑战,随着DeepSeek的成功, 技术的不断发展和成熟,预计会有更多公司开始采用这些先进的模型架构,以提高AI系统的效率和性能。

2. 创新的注意力机制 :多头潜在注意力(MLA)机制

注意力机制(Attention Mechanism),这一波AI领域的革命性进展主要基于著名的Transformer架构,其核心思想源自论文《Attention is All You Need》,文章标题本身就凸显了注意力机制(Attention)的重要性。那么,什么是注意力机制呢?

当ChatGPT生成文本时,它不仅关注刚刚生成的词,还会综合考虑输入的整个上下文以及之前生成的所有词。更重要的是,模型会为这些词分配不同的权重,从而差异化地关注它们对当前生成词的影响。这种动态的、差异化的关注机制,使得模型能够捕捉上下文中的关键信息,生成更加自然、连贯且语义丰富的文本,这就是注意力机制的直观体现。

可以用一个通俗的比喻来理解:想象你在一个嘈杂的咖啡馆里和朋友聊天。尽管周围充满了噪音和他人的谈话声,但你依然能集中注意力听清朋友的声音。这是因为你的大脑能够自动“调低”无关声音的“音量”,同时“调高”朋友声音的“音量”。注意力机制正是模拟了这一过程,使模型能够从大量信息中筛选出关键部分,忽略无关内容,从而更高效地处理复杂任务。

为了在训练程序中实现注意力机制,Transformer引入了一套数学方法,即用查询(query)Q、键(key)K和值(value)V来计算注意力(attention)。Q、K和V都是高维矩阵。在实际的语句生成过程中,大体上是用Q和K相乘,算出前面句子中的不同部分与下一个即将生成的词的关联度,然后再乘以表示前面句子内容的值V,这样算出所谓的注意力,从而决定下一个词是什么。

多头注意力机制(Multi-Head Attention, MHA)是对自注意力的扩展,多头注意力机制是对传统注意力机制的改进,可以比喻为多角度观察者。想象你在阅读一本复杂的小说,单一注意力就像只有一双眼睛,只能关注一个方面,比如故事情节。而多头注意力就像拥有多双眼睛,每双眼睛专注于不同的方面:一双眼睛关注情节发展,另一双眼睛观

人物性格,第三双眼睛分析文字风格,第四双眼睛捕捉隐喻和象征。最终,你的大脑(相当于多头注意力的输出层)综合所有这些观察,形成对小说的全面理解。

多头注意力机制通过这种多角度的观察,能够同时捕捉不同的特征,从多个视角观察输入数据,捕捉不同的相关性关系。这样一来,模型的表示空间得到了扩展,提升了学习复杂特征的能力。多个注意力头还可以并行计算,提高了处理速度,同时减少了过拟合的风险,从而增强了模型的泛化能力。不同的注意力头关注输入的不同方面,使模型能够获得更全面的语义理解。

通过这种多角度并行处理,多头注意力使模型能够更全面地理解复杂的语言结构和语义关系,从而在各种自然语言处理任务中表现出色。

多头潜在注意力机制(Multi-Head Latent Attention, MLA) 是由DeepSeek公司提出,并在其DeepSeek-V2模型中引入的。MLA改进了传统多头注意力机制(Multi-Head Attention, MHA),主要解决了大型语言模型在训练和推理过程中的瓶颈问题,特别是KV缓存占用大量内存的问题。相比MHA,MLA显著降低了内存使用,仅需要5%-13%的显存,并通过减少KV缓存,加快了推理过程,尤其是在处理长序列时。同时,MLA在大幅减少资源占用的情况下,仍能实现与MHA相当甚至更强的性能。这使得DeepSeek-V2在保持高性能的同时,显著降低了训练和推理成本。这项创新让DeepSeek在大语言模型领域获得了显著优势,吸引了包括硅谷在内的全球AI社区的关注。

多头潜在注意力机制(MLA)相比传统多头注意力机制(MHA)具有的这些优势在实际计算中如何实现这些优势呢?要完整理解这个问题需要具备矩阵计算的知识,不太容易在这样的科普文章中说清楚。让我们换个角度,从基于Transformer架构的大模型的生成策略,即自回归方法说起。

生成式语言大模型是基于自回归方法的,自回归算法就是根据前面已有的词来预测和生成后面的词。它在生成每一个新词的过程中,都要把前面已经生成的部分根据注意力(关联性)重算一遍,就像我们玩文字接龙时需要从头开始念一遍,然后再添加上一个词。如果生成的文章比较长,就会有很多重复计算,这样的计算浪费大量计算资源。为了节省这个过程中的计算资源,人们有时会把前面计算过的部分存储在缓冲区(cache)里,但这会带来一个新问题,即占用大量存储空间,也就是GPU的内存。因此,这里出现了两难问题:要省内存的话,就得多计算;要想节省计算的话,就得多占用内存。在DeepSeek提出MLA之前,其他AI公司不得不在这个两难处境中进行选择。

DeepSeek的研究团队通过深入探索,提出了一种创新的低秩键值联合压缩技术。他们发现,可以将传统多头注意力机制中需要缓存的键(Key)和值(Value)矩阵压缩为一个低维潜在向量。这种方法不仅显著减少了内存占用,还保留了关键信息,实现了高效的注意力计算。据说,被雷军以千万年薪挖到小米的那位天才少女正是这个MLA研究的主要贡献者。通过这种设计,MLA在保持或提升模型性能的同时,显著降低了计算资源需求,特别是在处理长序列时效果更为明显。这种创新使MLA能够在大规模语言模型应用中实现更高效的训练和推理,可以说是DeepSeek成功完成训练DeepSeek-V3大模型的关键因素之一。

3. 多Token预测 (MTP) 的应用

DeepSeek-V3采用了多Token预测(Multi-token Prediction, MTP)技术,这使其在语言模型领域独树一帜。与逐词预测不同,MTP一次性预测多个词汇。 

MTP的概念并不是全新,它由Meta在2024年ICML会议上提出。核心思路是在训练时一次性预测多个未来的Token,而不仅仅是下一个Token。这种方法迫使模型学习Token之间的依赖关系,更好地理解上下文信息。

MTP的工作原理是通过使用多个输出头并行预测多个Token来工作。然后主输出头(next-token prediction head)验证预测结果并选择最有可能的结果。这个过程相对容易实现。模型使用n个独立的输出头来预测n个未来的Token,共享同一个主干网络生成上下文的潜在表征,然后将该表征送入到n个独立的头网络。这种设计相对简单,不需要复杂的架构改变。

Meta的研究表明,MTP通过预测多个Token,为模型提供更丰富的监督信号,使其能更快地学习语言结构和规律。使用4-token预测训练的模型在推理时速度可提高至3倍。MTP还帮助模型学习Token之间的长距离依赖关系,从而更好地理解上下文信息,并且在编程任务上表现突出,增强了分布外泛化能力。

然而,MTP可能需要更多的计算资源,尤其是在模型规模较大时。简单实现MTP可能导致内存使用量迅速增加,需要特殊的优化技术来解决。此外,在某些特定的NLP任务上,MTP并不总是优于传统的单Token预测,例如在某些标准选择题任务中表现不佳。

DeepSeek率先将多Token预测(MTP)技术应用于DeepSeek-V3和R1的训练中,充分发挥了MTP的高效优势。通过极致的内存和通讯管理,部分克服了MTP的缺点,从整体上提高了大模型的训练效率。这些改进包括提高数据效率、增强预测能力、减少训练时间和提升模型的泛化能力。实现了显著的效率和性能提升。这种创新方法使DeepSeek站在了AI技术的前沿。

 4. 混合精度训练  

DeepSeek-V3引入了FP8混合精度训练框架,这是一项重大创新。FP8混合精度训练的主要特点包括使用8位浮点数(FP8)表示数据,相较于传统的32位(FP32)和16位(FP16)格式,精度有所降低,但占用空间更小,计算速度更快。其混合精度策略采用FP8实现大部分核心计算内核,具体包括前向传播、激活反向传播和权重反向传播。输出结果则采用BF16或FP32格式,向量激活值以FP8格式存储用于反向传播。

这种方法带来了显著的性能提升,理论上计算速度提升了一倍,同时大大降低了内存消耗。DeepSeek通过创新的误差累积解决方案,FP8混合精度训练将精度损失控制在0.25%以内,几乎不影响模型性能。首次在超大规模模型上验证了FP8混合精度训练的有效性,使DeepSeek-V3能够在降低GPU内存占用和计算开销的同时,保持高水平的性能,进一步提高了单位GPU小时的计算利用率,降低了整体训练成本。

混合精度训练,虽说概念上容易理解,但在实际操作中却是相当困难。这需要设计团队对大模型训练过程中的每一个环节和细节的计算精度有全面且精准的把握。正因为如此,许多大模型并未采用混合精度训练,尤其是那些财大气粗、手握数以十万计GPU的AI巨头们。DeepSeek选择使用混合精度训练方法,实属逼不得已。而他们成功地实现了这一点,可以说是绝处逢生,未来更加辉煌。 这两天, 坊间的一些传言已被证实,为了极致利用H800算力,DeepSeek的年轻团队甚至用GPU的底层语言PTX去优化他们的算法,他们的成功完美诠释了那句老话:“那些杀不死你的,终将使你更强大。“

5. 数据并行和模型并行:

DeepSeek-V3 的并行策略非常复杂和精细。它采用了三层并行策略,包括16路流水线并行、跨8个节点的64路专家并行以及ZeRO-1数据并行。此外,DeepSeek-V3 引入了创新的DualPipe流水线并行算法,这大大减少了流水线停滞现象,并实现了计算与通信阶段的重叠。这种设计显著提高了 GPU 利用率,同时减少了通信开销。

在专家并行方面,DeepSeek-V3 的模型由256个路由专家和1个共享专家组成,每个 token 会激活8个专家,并确保最多被发送到4个节点。这种多层次的并行策略不仅充分利用了硬件资源,还通过创新的算法设计显著提高了训练效率,使 DeepSeek-V3 能在较短时间内完成大规模模型的训练。通过这些改进,DeepSeek-V3 能够高效处理复杂计算任务,大大提高整体性能。

他们还在综合考虑硬件和软件的相互关系软硬件架构联合设计,内存和计算能力的合理调配以及负载均衡策略上也达到了极致。通过这些技术的综合应用,DeepSeek能够在有限的GPU资源和较短的训练时间内,成功训练出通用语言大模型DeepSeek-V3。   

从DeepSeek-V3 到 DeepSeek-R1:高效训练之路

创新性新算法GPRO的应用:从DeepSeek-V3 到DeepSeek-R1-Zero

现在大模型的训练可以分为两个阶段, 第一阶段叫预训练, 预训练是非常昂贵的, 首先需要准备海量的训练数据集, 其次需要足够大的计算机群, 再次还要经过相当长的训练时间。 预训练会把海量得训练数据材料中的知识压缩到大模型得上亿参数中, 得到一个通用语言大模型, 如ChatGPT 4o 和这里讨论的DeepSee-V3, 这种通用语言大模型拥有几乎无所不知的知识, 但它在推理(reasoning)方面的能力相当有限。

为了让这样的大模型具有更好的推理能力, 人们开发了多种训练方法, 其中最重要的是有监督微调(SFT)和强化学习(RL)。

监督微调(Supervised Fine-Tuning, SFT)是一种在预训练模型基础上,使用标注数据进行进一步训练的方法,旨在提升模型在特定任务或领域上的表现。其主要目的是使模型适应特定任务和数据,提高模型的鲁棒性和稳定性。然而,SFT的昂贵性主要体现在数据收集和处理成本高、人力资源投入大和计算资源需求高三个方面。

SFT需要收集大量高质量、标注好的特定任务数据,这个过程既耗时又昂贵。此外,还需要雇佣专业人员进行数据标注和处理,进一步增加人力成本。SFT过程需要大量计算资源,特别是对于大型语言模型,这会显著增加成本。多阶段的训练流程,包括预训练、微调和评估等,都需要大量计算资源和时间。为了达到理想效果,SFT可能需要多次迭代和优化,进一步增加成本。 所以业界有句话说, 天下苦SFT久矣。  

强化学习(Reinforcement Learning, RL)是一种机器学习方法,大模型通过与环境交互,根据环境反馈的奖励信号,学习最优策略以最大化累积奖励。 它已经发展出了多种变体。 在大模型后训练中,将强化学习与人类反馈相结合的(RLHF)更为常用。 

人类反馈的强化学习(RLHF)和传统强化学习在使用框架、优化策略和迭代式学习上相似,但在奖励来源、学习目标和训练过程上有所不同。传统强化学习依赖预定义规则或环境,而RLHF则通过人类反馈转化为奖励,训练奖励模型以预测人类偏好。RLHF旨在使模型输出更符合人类价值观,而传统强化学习专注于优化特定任务性能。训练过程中,RLHF包含预训练、奖励模型训练和强化学习微调等多个阶段,适用于难以用算法定义质量但人类易判断的任务,如生成引人入胜的故事。

RLHF的成本通常比传统强化学习更高,主要因数据收集成本、人力资源投入、多阶段训练和计算资源需求。RLHF需要大量高质量的人类反馈数据,这个过程耗时且昂贵。专业人员的雇佣增加了人力成本,而RLHF还需多次模型训练和部署阶段,增加整体计算成本。此外,RLHF需更多计算资源处理人类反馈数据和优化模型。相比之下,传统强化学习不需要昂贵的人类反馈数据。总体来看,RLHF的高成本源于人类反馈数据的收集和处理,甚至比SFT更贵,对资源有限的公司来说更是一个挑战。 

在这种情况下,DeepSeek团队于2024年2月提出的一种创新强化学习算法, GRPO群体相对策略优化(GRPO)。该算法旨在提升大语言模型的推理能力,尤其在数学和编程等复杂任务中表现突出。GRPO的主要特点是其不依赖于独立的价值函数模型,而是通过多个输出的平均奖励进行优化,这一方法简化了训练过程,减少了内存消耗和计算开销,同时在某些任务上取得了显著的性能提升。

DeepSeek R1-Zero采用了群体相对策略优化(GRPO),完全跳过了费时费计算的人类反馈的强化学习(RLHF)和传统的监督微调(SFT)过程,使得训练过程高效低耗效果好。在AIME 2024测试集上,模型得分从15.6%提升至71.0%,展现了出色的性能和资源节省能力。

DeepSeek-R1-Zero虽然在推理能力上取得重大进展,但也存在一些显著缺点。首先,模型输出的格式和清晰度较差,用户难以理解。其次,模型倾向于混合使用多种语言,尤其是英语和中文,影响响应的理解。此外,由于完全依赖强化学习而没有进行初始监督微调,模型在人类可理解的输出方面存在局限性,有时会出现重复行为,降低沟通效果。尽管在推理任务中表现出色,但在编码挑战方面表现不佳,显示出功能不均衡。模型对提示非常敏感,少样本提示会降低性能。同时,模型在软件工程基准测试中的表现未有显著提升,通用能力在某些任务上不如DeepSeek-V3。研究团队通过引入冷启动数据和多阶段训练流程解决这些问题,最终开发了改进版本DeepSeek-R1。

监督微调 + 强化学习:从DeepSeek-R1-Zero到DeepSeek-R1

对比OpenAI o1和从DeepSeek-R1-Zero到DeepSeek-R1的训练过程, 都涉及了强化学习技术,但DeepSeek的方法有一些独特的创新。首先,DeepSeek-R1-Zero完全放弃了传统的监督微调(SFT),仅使用强化学习进行训练。这证明了仅通过RL,大模型也可以获得强大的推理能力。DeepSeek开发了群体相对策略优化(GRPO)算法,这是一种创新的强化学习方法,降低了内存使用和计算开销。

其次,DeepSeek-R1采用了“微调 → RL → 微调 → RL”的迭代训练模式,这种方法结合了监督学习和强化学习的优势。为解决多语言混合问题,DeepSeek引入了语言一致性奖励机制。此外,DeepSeek使用数千条高质量的长思维链(CoT)数据进行初始微调,提高了模型的可读性和初始推理能力,并利用模型判断和筛选高质量数据,生成约800k样本用于进一步训练。

相比之下,OpenAI o1的训练过程主要强调大规模强化学习。o1采用纯强化学习方法,不依赖传统的监督微调,并能产生很长的内部思维链,模拟人类的深度思考过程。此外,OpenAI还基于o1开发了专门的编程模型o1-ioi。总体来说,OpenAI o1更侧重于纯强化学习和思维链生成的深度优化。

总的来说,DeepSeek的创新主要体现在训练流程的设计和新算法(如GRPO)的应用上。这些方法在保持高性能的同时,显著降低了训练成本,成为DeepSeek能够以较低价格提供服务的重要原因之一。通过这一系列优化,DeepSeek在强化学习领域取得了显著的进展和成绩。

总之,DeepSeek在其大模型训练过程中采用了多项创新技术和优化策略,使训练更加高效、节省资源和成本。首先,DeepSeek引入了细粒度专家划分和将专家分为共享专家和独立路由专家两类的DeepSeekMoE构架,以及创新性多层注意力(MLA)架构,用于压缩向量数据。此外,群体相对策略优化(GRPO)用于强化学习,不依赖独立的价值函数模型,降低了内存消耗和计算开销。多Token预测(MTP)技术也提高了训练效率,使模型能够同时预测多个连续位置的Token。

其次,DeepSeek在内存和计算优化方面也进行了极致优化。例如,FP8混合精度训练减少了权重大小并提高了计算吞吐量。动态序列长度调整机制优化了不同长度输入的处理。此外,还有DualPipe算法,通过重叠计算和通信减少流水线气泡,自定义跨节点全对全通信内核,充分利用NVLink和InfiniBand带宽,进一步提高通信效率。

在硬件利用优化方面,DeepSeek通过极致工程化和并行优化,削减了通用算力的无效消耗,集中资源于核心模块。训练策略优化方面,DeepSeek采用了多阶段训练流程,包括预训练、长上下文扩展、后训练(SFT和RL)。同时,数据混合采样策略和课程学习方法优化了训练过程中的数据使用效率,使得模型训练更加高效。

这些创新和优化使DeepSeek-R1的训练更加节省资源、高效和便宜。具体来说,GRPO算法和FP8混合精度训练显著减少了内存需求;MTP技术和并行优化提升了计算资源利用率;DualPipe算法和自定义通信内核优化了多GPU训练的通信效率;数据蒸馏技术和混合采样策略提高了训练数据的质量,减少了无效训练。极致工程化和并行优化则充分发挥了现有硬件的潜力。通过这些技术和优化,DeepSeek能够以较低的成本实现高效训练,展示了“极致工程化+后训练蒸馏+专业数据整合+重点强化训练”新范式如何在有限的GPU资源下接近或超越业界主流大模型性能。

因此,DeepSeek在有限的、相对低效的GPU资源下,在较短的时间内成功训练出世界一流的闭源推理大模型,无疑是可信的。DeepSeek为全球的AI研发开创了新的道路,展示了在有限资源条件下实现高效训练的可能性。这一突破不仅证明了DeepSeek的技术实力,也预示着未来AI格局的彻底改变,开启了一扇通往无限可能的大门。 

 
 
dakinglaile 发表评论于
谢谢这么详细的分享。非常专业,有说服力。
登录后才可评论.