大语言模型技术演进和启示 大语言模型技术图片
随着大模型在人工智能领域的广泛应用,其背后的技术体系正变得愈发复杂和精细。从 Transformer 架构的性能优化,到多模态模型的交互设计,再到软硬件协同的高效实现,大模型体系的构建已不仅是单一技术的堆叠,而是跨越算法、硬件和体系架构的全方位整合。
11 月 14-15 日,由 反恐精英DN 联合高级 IT 咨询和教学平台 Boolan 举办的“2024 全球机器进修技术大会”特设了“大语言模型技术演进”分论坛,以这一复杂生态为切入点,深度探讨了从模型设计到实际落地的核心技术操作。
论坛上,来自百川智能、中国科学院自动化研究所、企鹅、智源、智谱、得物、快手、CodePlay、Lepton AI 等机构和企业的多位重量级嘉宾带来了 Transformer 效率优化、合成指令优化、多模态跨模态对齐等技术的新鲜研究成果,并深入剖析了提高推理效率的创造操作,为行业提供了最新的思路和路线。
王炳宁:Transformer 效率优化
在生成式 AI 浪潮中,Transformer 架构被广泛认为是这一技术进步的基石。针对这一主题,百川智能预训练负责人王炳宁在其同享中,以《Transformer 效率优化》为题,深入剖析了 Transformer 技术的核心和优化途径。
王炳宁 百川智能预训练负责人
2024 年,Google 团队提出了 Transformer 架构,凭借多头注意力机制(Multi-Head Attention,MHA)和全局上下文建模能力,迅速成为天然语言处理(NLP)领域的主流选择。相比 RNN,Transformer 在并行性和扩展性上展现出显著优势,推动了诸如 GPT、LLama 和百川智能语言模型等大规模预训练模型的进步。
王炳宁表示,Transformer 的核心机制是 Attention,通过全局关注全部输入序列,实现了显著的效果提高。然而,Transformer 在引入全 Attention 机制的同时,也面临下面内容挑战:
-
计算复杂度高:随着序列长度增加,计算复杂度呈平方级增长,导致速度变慢。
-
内存需求高:需要大量显存存储上下文数据,频繁的 I/O 操作成为瓶颈。
-
显式位置编码:需要通过显式方式标记位置关系,无法像 RNN 自动扩展序列位置。
王炳宁指出,Transformer 的效率优化需要从 Prefilling 阶段和 Decoding 阶段两个方面进行。Prefilling 阶段是指模型对输入序列进行处理并生成特征表示,Decoding 是模型根据上下文逐步生成输出。
在解码阶段,缓存(KV Cache)的影响尤为重要。它存储了 Key 和 Value 矩阵,用于避免重复计算。然而,随着序列长度增加,缓存数据频繁在显存和计算单元之间传递,导致显著的 I/O 瓶颈(“IO-bound”难题)。这一瓶颈成为限制 Transformer 推理速度的核心难题。
针对 KV Cache 的 I/O 瓶颈,王炳宁同享了两种优化策略——GQA(Grouped Query Attention)和 MQA(Multi-Query Attention)。
-
GQA:通过减少缓存头数,例如将原始 32 个多头减少为 4 个,大幅降低缓存大致(约 8 倍),提高 I/O 效率。
-
MQA:进一步简化,仅运用壹个头存储 Key 和 Value,同时支持多个查询操作,显著降低解码阶段的计算复杂度。
虽然 GQA 和 MQA 显著加快了解码速度,但它们或多或少会影响模型的效果。尤其是减少多头数量后,注意力机制的表达能力下降,特别是在处理复杂上下文时,模型的预测精度也许会有所降低。为平衡缓存大致和任务效果,王炳宁表示 MLA(Multi-Latent Attention)提供了一种折中方法。在缓存阶段,将 Key 和 Value 矩阵压缩为单头表示,减少显存占用和 I/O 需求。在推理阶段,动态扩展为多头表示,恢复多头注意力的表达能力,提高任务效果。
然而,MLA 对训练速度造成了一定影响,而且无法降低 Prefilling 阶段的时刻成本。王炳宁特别指出,虽然 MLA 等方式可以显著优化解码阶段,但在处理长序列输入的Prefilling阶段仍需更有效的化解方法。
在 Prefilling 阶段,Transformer 需要对完整输入序列进行全局建模,其计算复杂度呈平方级增长。为此,王炳宁同享了下面内容两种优化方式,一种是稀疏注意力(Sparse Attention),仅保留部分单词间的交互,例如 BigBird 和 LongFormer 通过跳跃采样或随机选择来降低计算量,二是局部注意力(Local Attention),限制模型只关注相邻的 K 个单词,减少无关上下文的计算开销。
最后,王炳宁拓展资料道,Transformer 的核心设计经过七年的进步,仍是当前最优的天然语言处理架构。不过,全部的优化都是有代价的,需要对效果和效率进行折中。
Michael Wong——释放 AI 的潜能:应对变幻莫测的 AI 硬件和软件
释放 AI 潜能不仅依赖技术的突破,也离不开工具、框架和编程语言的有效运用。在 CodePlay 副总裁 Michael Wong 的《释放 AI 的潜能:应对变幻莫测的 AI 硬件和软件》演讲中,他深入剖析了这一主题,阐述了 AI 领域的进步现状和未来路线。
Michael Wong CodePlay 副总裁
Michael 提到,当前 AI 领域正故事前所未有的计算需求增长,全球硬件创造频繁涌现,特别是 GPU、TPU 和 FPGA 等专用 AI 硬件的大量普及,这些加速器正在推动 AI 性能的极大提高。虽然 NVIDIA 的硬件主导市场,但 Google、AMD、Intel、华为、度娘、阿里等许多 AI 厂商正在开发自己的专用硬件,以摆脱对 NVIDIA 的依赖。这种竞争不仅带来了硬件的多样化,也促使软件框架不断进化。像 PyTorch、TensorFlow、JAX 和 PaddlePaddle 等框架,通过 CUDA 或 XLA 等底层库,和不同硬件高效协作,为 AI 开发提供了强大支持。
在此背景下,AI 加速器的定义也被从头诠释。Michael 表示,GPU 和 TPU 等硬件不再仅用于图形处理,而是成为专门加速矩阵运算的利器,用于高效完成 AI 任务中的线性代数计算。性能优化的实现则依赖于框架级工具,例如 XLA、IREE 等,它们通过顶级编译技术优化 AI 模型,并支持跨平台部署。
Michael 特别强调了 Python 作为 AI 开发语言的重要性。Python 因其易用性和广泛的库支持,成为 AI 研究的“普通话”。然而,由于 Python 的运行速度较慢,许多计算密集型任务被转移到 C++ 等底层语言中执行。种种缘故驱使下,这导致 Chris Lattner 创建了新的 AI 语言 Mojo,结合 Python 的解释性和 C++ 的性能优化,并基于 MLIR 构建,能够调度多种硬件设备。Mojo 结合了一些类似Rust 的安全特性,例如默认不可变性和更高的代码安全性。Mojo 不仅仅是为 AI 设计的一种语言,Michael 认为它甚至也许成为下一代体系语言,潜在取代 C++ 的地位。
随后,Michael 进一步探讨了边缘 AI 的框架及其优化。例如,ExecuTorch 和 TensorFlow Lite分别针对移动设备和嵌入式体系进行了特别设计,用以满足资源受限场景的需求。同时,他指出,框架的互操作性至关重要,例如 ONNX 支持 AI 模型的互操作性和跨平台部署。PolyBlocks 和 TVM 等编译器也在优化高维数据处理和端到端部署方面表现出色。
他还提到,硬件加速语言如 CUDA、ROCm 和 SYCL,以及图形 API 如 Vulkan 和 OpenVX,在提高 AI 计算性能方面发挥了重要影响。新兴技术如 Triton、IREE 和 MLIR 则通过增强跨平台兼容性和优化能力,正在塑造 AI 的未来。
Michael 展望了 AI 未来进步的多少路线,包括量子加速、神经形态计算、绿色计算和边缘 AI等。他指出,AI 生态体系的标准化和互操作性将是推动创造的决定因素,而开发更易用的 AI 语言和生态体系,将为研究者和开发者带来更多机遇。最后,他鼓励开发者采用最佳操作,如结合多种优化技术、利用硬件特定库,以及在框架级和运行时层面进行性能调优。
刘广:Infinity Instruct: 合成指令技术的寻觅
本次大会上,智源基础数据研究组负责人刘广发表了《Infinity Instruct: 合成指令技术的寻觅》的主题演讲。他指出,指令数据集的进步和模型技术相比进展相对滞后。研究表明,大模型性能的提高高度依赖于高质量的数据。然而,人类生成数据也许会在 2028 年前达到“数据墙”的瓶颈,尤其是高质量指令数据在生成速度和存量上都面临严峻的限制。
刘广 智源基础数据研究组负责人
刘广强调,Infinity Instruct 项目正是为了化解这一难题而启动。团队整合了超过1亿条现有开源数据,构建了一套两级标签体系,用于综合刻画指令数据的深度和广度。一级标签覆盖 26 个大类能力,例如数学计算、编程能力和天然语言处理;二级标签则细化为超过 1.5 万个任务类别,精准描述完成各类指令所需的姿势和技能。这一标签体系不仅提高了数据筛选的效率,还为数据解析和优化提供了科学的依据。
在数据筛选经过中,Infinity Instruct 团队通过统一格式、去重和质量过滤等流程,从 1 亿多条数据中筛选出 740 万条高质量基础能力指令数据。除了这些之后,他们还基于模型能力缺陷的诊断,补充生成了约 150 万条复杂对话指令数据。这些数据涵盖数学、代码和通用姿势领域,成为支持多任务模型训练的重要基础。
Infinity Instruct 当前也对指令数据的质量提出了明确的定义,强调广度和深度的重要性。广度标准数据能够覆盖用户也许提出的全部难题,包括日常对话、学术推理和复杂难题化解等不同场景;深度则指数据在姿势和能力上的综合性,尤其是应对多维度复杂任务的能力。刘广表示,相比现有仅基于数据来源或任务类型分类的局限,Infinity Instruct 通过两级标签体系实现了对数据的体系优化,不仅能够更综合地覆盖长尾任务,还能确保模型能够应对复杂难题的挑战。
在提高模型能力方面,Infinity Instruct 采用了先进的合成技术。团队以高质量的种子数据为基础,通过进化算法优化模型的泛化能力,并针对小规模测试中发现的能力缺陷生成相应数据。合成经过经过多轮迭代,每轮结合验证结局对生成策略进行调整,从而确保数据的多样性和精准性。
数学推理领域的 Infinity Math 项目进一步推动了合成技术的进步。该团队通过形式化表达,将天然语言描述的数学难题转化为通用模板,并利用程序化解法生成数值精确的数据。这种方法允许在固定模板下,通过变量替换生成无限扩展的数据,大幅丰盛了模型训练所需的数据池。
刘广还提到,高质量数据不仅在姿势广度和任务复杂性上提出了挑战,同时涉及和人类偏好的对齐难题。现有偏好体系通常运用固定权重评分,忽略了不同任务在偏好权重上的差异。例如,在数学推理任务中,“正确性”的权重远高于“连贯性”,而在创意写作中,“连贯性”或“冗余性”的权重则更为重要。针对这一难题,Infinity Instruct 提出了任务粒度的偏好建模方式,为不同任务分配不同的权重分布,帮助模型更好地领会人类偏好的复杂性。通过奖励模型和任务权重进修,该方式显著提高了模型在多任务场景下的表现。
现如今,随着多模态任务需求的增长,单一模态数据难以满足模型在图片、视频和文本多形态融合上的需求。为此,团队开发了 Infinity-MM 数据集,这一千万级规模的数据集整合了图片和文本指令数据,并通过先进的合成技术生成了大约800K条多轮对话训练指令。这些数据显著提高了多模态模型的推理能力,使其在多个任务评价中超越了现有开源数据集的表现。
吴凌翔:多模态大模型的操作和思索
自 ChatGPT 问世以来,对话体系发生了巨大变革。在当今智能算法的支持下,机器不仅能领会人类语言的意图,还能通过高效的人机交互完成特定任务或给出答复。人类的进修和探讨经过涉及丰盛的多模态信息,怎样有效利用这些信息,中国科学院自动化研究所副研究员、武汉人工智能研究院算法总监吴凌翔以“紫东太初多模态大模型”为例进行了深入同享。
吴凌翔 中国科学院自动化研究所副研究员、武汉人工智能研究院算法总监
吴凌翔表示,于 2024 年公开的紫东太初 1.0 多模态大模型第一次引入了多任务多模态自监督进修框架,涵盖从 Token 级、模态级到样本级的进修方式,成功打造了壹个能够处理文本、图像和声音的三模态大模型。随着技术的演进,紫东太初 2.0 版进一步进步了全模态多任务统一生成式进修架构,采用全模态分组对齐、分组解码及联合解码的技术,实现了全模态的低成本协同优化进修,此版本还新增了信号、3D、视频等模态,增强了模型处理和解析信息的能力。
除此之外,吴凌翔同享了团队在多模态大模型方面的几项创造成果:
-
首先是可变形视觉 Transformer 模型,它通过预测每个局部块的空间位置和大致,克服了传统固定滑块导致的语义结构不完整的难题。
-
其次是对比掩码自监督模型,该模型对图像进行动态掩码,突破进修性能弱表征单一的瓶颈,并大幅度提高收敛效率。
-
除了这些之后,还有数据鲁棒自监督模型,它通过对图像提取目标框,挖掘场景-目标之间的潜在关系,摆脱以单目标为中心的图像束缚,突破进修算法通用性差的难题。
-
在视觉和语言结合的研究方面,该团队致力于语言引导的多任务统一编码,旨在通过语言指导提高模型对多模态信息的局部感知能力。
-
同时,还开发了视觉-文本双指代统一大模型,该模型具备定位、分割、计数和区域描述等能力,能够高效压缩高分辨率视觉编码,减少计算复杂度,并通过设计视觉提示分支增强模型的视觉查询功能。
如今“紫东太初多模态大模型”在聪明政务、智能客服、聪明交通、聪明金融等多个领域得到广泛应用。
不过,吴凌翔指出,虽然当前多任务泛化型 AI 体系已在多个任务上表现优异,但要实现真正的通用 AI 仍需克服诸多挑战,比如进步能效比、化解实际应用场景中的复杂难题等。未来,吴凌翔表示,具身智能、脑科学和 AI 的融合以及跨学科合作等路线都具有寻觅的机会。
鱼哲:生成式 AI 落地对架构带来的挑战和机遇
在《生成式 AI 落地对架构带来的挑战和机遇》的演讲中,Lepton AI 创始成员鱼哲深入探讨了生成式 AI 的核心目标和挑战。他指出,AI 可以被视为一种旨在模仿和增强人类智能的技术体系,使机器能够完成通常需要人类聪明才能完成的任务,包括但不限于进修、推理、难题化解、姿势表示和规划等。
鱼哲 Lepton AI 创始成员
在生成式 AI 的落地经过中,有两个决定因素点值得特别关注:一是最大化机会(Maximize the chances),通过多种方式提高机器完成任务的也许性。在此经过中,鱼哲引入“颗粒度”(Granularity)的概念,用来衡量操作模型的细致程度。例如,高颗粒度场景需要高度精细的指导,如代码生成;而低颗粒度场景对细节的标准较低。二是选择任务(Choose the goal),为 AI 分配适合的任务时必须思考“职责度”(Accountability)。在高职责度场景下(如医疗诊断或金融咨询),准确性至关重要,任何错误都也许带来严重后果。
基于“颗粒度”和“职责度”两个维度,鱼哲将 AI 的应用场景划分为四个象限,揭示了不同应用场景的需求和挑战:
1. 第一象限:高颗粒度 + 高职责度
典型应用:医疗诊断、企业生产中的决定因素任务。
这些场景中,任何错误都也许导致严重后果。客户关注的首要影响是模型的选择(Choice of Models),他们往往希望尽快尝试各种不同模型以应对模型更新迭代的快速变化。其次是生成速度(Speed of Generation),由于速度直接影响应用效果;最后才是生成成本(Cost of Generation),这通常在高职责度场景中不是首要思考。
2. 第二象限:低颗粒度 + 高职责度
典型应用:通用搜索、语音生成、语音识别等相对标准化的场景。
在这些场景中,AI 应用的操作复杂度较低,但对结局可靠性的标准极高。生成速度和生成成本是客户最为关注的影响。鱼哲提到,例如 Eleven Labs 的语音生成,其生成成本在市场中非常被认可,尤其是在需要实时响应的场景中。
3. 第三象限:低颗粒度 + 低职责度
典型应用:艺术创作、娱乐内容生成。
这类应用对结局准确性标准较低,用户对偏差具有较高忍让度。AI 在此主要用于提高娱乐性和创新力。企业在这一象限往往处于尝试不同模型的阶段,其次才会关注生成成本和速度。
4. 第四象限:高颗粒度 + 低职责度
典型应用:虚拟人物互动。
这些场景需要频繁交互和调整,但对结局的精准度标准较低。例如,和游戏中的虚拟人物互动,用户可以多次尝试直到获取满意的结局。客户关注的重点依次是模型选择、生成速度和生成成本。在这个象限中,模型仍处于快速推陈出新的阶段。
结合以上生成式 AI 落地的机遇和挑战,鱼哲拓展资料了硅谷许多成功 AI 初创企业的共同特征:
1. 领域姿势(Domain Know-how):对应用场景和用户需求有深刻领会。
2. 数据积累(Data):拥有丰盛的行业数据,为模型训练和优化提供基础。
3. 快速上市(Time to Market):能够迅速响应市场需求并快速迭代产品。
4. 基础设施(Infrastructure):以稳健的基础设施支撑产品扩展和更新。
鱼哲认为,这些要素是生成式 AI 在激烈竞争中取得成功的决定因素,也是推动技术落地和行业变革的重要动力。
孟令公:大模型推理智能提高操作
随着大模型规模的不断增大,怎样高效进行推理成为亟待化解的难题。得物机器进修顶级专家孟令公在《大模型推理智能优化和操作》主题演讲中指出,许多企业在训练并部署大模型后,需要专用的大模型推理引擎来加速推理经过。用户发送请求时,首先传递给应用程序,而应用程序会调用大模型推理引擎触发推理逻辑。推理引擎的核心目标是提高推理速度和吞吐量,同时兼容多种大模型(如 Llama 系列、千问系列等)和硬件(如 GPU、CPU、NPU)。
孟令公 得物机器进修顶级专家
孟令公同享道,大模型推理引擎的核心模块包括调度器、KV Cache管理、Prefill阶段和Decode阶段,这些模块是性能优化的决定因素。
KV Cache的引入使得每个推理请求能够维护历史Key-Value缓存,以支持前给传播和自回归生成。通过缓存先前时刻步的键和值,可以避免在每个时刻步重复计算先前的注意力内容,从而大幅提高生成效率。然而,随着生成 Token 数量的增加,KV Cache 的显存占用不断增大。孟令公指出,频繁的申请和释放也许导致显存碎片化,这类似于传统内存管理中的难题。
为了化解这一难题,VLLM推理引擎在操作中引入了Paged Attention技术作为化解方法。Paged Attention是一种受操作体系虚拟内存和分页启发的算法,通过将注意力的键和值缓存分成固定大致的页,并以非连续方法存储,从而高效管理显存,减少碎片,进步吞吐量。除了这些之后,该技术支持多序列共享内存,例如在并行采样时共享提示词缓存,进一步降低显存开销并提高性能。由于采用了Paged Attention,vLLM的吞吐量比 Hugging Face高8.5倍至15倍。
除了这些之后,孟令公表示,在多轮对话场景中,大模型推理常面临上下文高重复性的难题。用户的每次请求中往往包含大量重复的 Prompt 内容,而这些重复部分的重复计算会导致资源浪费和响应延迟的增加。为了化解这个难题,SGLang推理引擎还引入了一种名为Radix Attention的方式来优化显存管理。Radix Attention通过对重复Prompt 部分的高效缓存管理,在高并发场景下保持了更低的响应延迟。这种优化特别适合多轮对话、少样本进修等场景,由于这些场景中输入内容的重复性较高,通过缓存复用可以极大提高GPU资源的利用效率。
推理引擎的优化不仅依赖于缓存管理,还需要在推理经过中的两个决定因素阶段——Prefill和Decode——进行优化。
-
Prefill阶段:引擎对输入Prompt进行批量计算,该阶段具有并行计算的特征,能够充分利用GPU资源。通过Chunk Prefill技术,将长Prompt拆分为若干固定长度的小块(如512个Token)逐块处理,可以避免GPU 资源长时刻被单个请求占用。除了这些之后,Prefill阶段和Decode阶段可以并行处理,从而进一步进步QPS。
-
Decode 阶段:自回归地逐个生成新的Token。由于生成的每个Token依赖于之前的输出,因此Decode阶段通常是串行的,效率受限。优化Decode的决定因素在于Batching和Speculative Decoding。通过Batching将多个Decode 请求合并成批次提交GPU进行处理,可以进步利用率,避免单个请求导致的资源闲置。Speculative Decoding 则通过引入较小的草稿模型快速生成候选Token序列,再利用目标大模型验证其准确性,从而降低响应延迟。
在部署大模型时,多业务场景下的资源消耗也一个挑战。孟令公提到,得物采用了多LoRA技术以节省大模型部署成本。LoRA方式将大模型的参数矩阵拆分为两个低秩矩阵,仅对其进行微调生成参数文件。在实际部署中,可以加载多个 LoRA文件并复用基础大模型,从而在一块显卡上同时支持多个业务场景,对推理速度和吞吐量的影响几乎可以忽略。
除了这些之后,模型层的优化也是性能提高的重要路线。例如,通过 AWQ(Accurate Weight Quantization)和 GPTQ(Generalized Post-training Quantization)对模型进行量化,可以在保持性能的同时减少模型体积和计算量。而底层库的优化,如运用 PyTorch2.0 的 Torch Compile 和 NVIDIA 的 CUDA Graph 技术,则进一步提高了 GPU 性能。
彭厚文:企鹅混元多模态技术操作和思索
多模态技术已成为生成式 AI 中不可避开的重要领域,其核心在于通过对不同模态数据的领会和协同处理,实现跨模态信息的融合和生成。在本次大会上,企鹅混元多模态模型技术专家彭厚文带来了《企鹅混元多模态大模型技术操作和思索》的主题演讲。彭厚文透露,企鹅混元团队目前正专注于文本、图像、视频、音频四个模态生成技术的研发。
企鹅混元多模态模型负责人 彭厚文
其中,彭厚文以图视生文为例,详细说明了企鹅混元团队在这一维度的新鲜进展和技术细节。他表示,企鹅混元的多模态图视生文模型主要包括三大的部分:
视觉编码器:采用 Vision Transformer (ViT),不仅能处理图片,还能处理视频,通过参数复用来领会多张图片或多帧视频。
视觉-语言适配器:作为连接视觉和语言模型的桥梁,帮助模型领会不同模态间的关系。
大语言模型:作为信息处理的中枢,采用 MoE 架构,以增强模型的扩展性和处理多模态数据的能力。
在整个预训练阶段,彭厚文指出,企鹅混元大模型的数据来源特别丰盛,包含图片、文本、视频、多图及网页端等多种数据源。同时,采用多阶段预训练策略,针对不同模态,采用不同数据进行训练,逐步提高模型性能。
在后训练阶段,主要涉及精调,构建高质量的指令数据,涵盖基础识别、OCR、图表、数学、代码等多个领域,通过细致分类确保模型覆盖广泛的应用场景。在数据处理维度,则主要运用包括预处理、筛选、去重、泛化等流程,以确保数据的质量和多样性。
在研发多模态大模型的经过中,彭厚文结合企鹅混元的操作经验,同享了多少维度的技术思索:
数据。数据的质量比数量更重要,数据的多样性也至关重要。然而,高质量的数据难以获取,因此需要合成大量高质量的数据,包括对真正数据的改写、扩充和思考链的合成。为了覆盖更多复杂的指令,通过合成方式使指令数据分布更接近用户的真正需求。在整个研发经过中,还需要构建高效的自动化数据获取和处理链路,提高研发效率。
模型结构。企鹅混元团队主要采用了 MoE 架构作为多模态的基座,其中主要缘故是,在相同的训练成本下,MoE 性能优于稠密模型,且具有更好的扩展性,能够融合多种模态。
模型训练:目前多模态大模型的训练大多是分阶段训练,即不同模块分阶段训练,从低分辨率到高分辨率,从较高质量数据到更高质量数据,进步训练效率。
模型推理。彭厚文表示,模型推理最重要的目标是减少延时,增加并发。在推理优化方面,为了进步多模态模型的推理效率,引入了 KV Cache 压缩。同时,还采用引入量化技术、Prefilling 等技术,来提高推理速度和效率,缩短用户体感的第一次响应时刻。
强化进修中的偏好对齐:在强化进修中,目前有两种主要的方式,一种是离线的强化进修,一种是在线的强化进修。离线的强化进修训练更加稳定,但方式泛化性较弱;在线的强化进修泛化性更强,因此大多数情况下会采用在线的强化进修。彭厚文表示,在线的强化进修中,准确、及时、精确的奖励反馈对于驱动大模型能力的提高特别决定因素。
模型评价:如今行业广泛关注并运用公开Benchmark进行评价,但 Benchmark 评价存在一定程度的偏差,和真正用户场景不同。因此,混元大模型不仅关注 Benchmark 评价,还会采用真正用户进行 AB 测试,覆盖不同场景和维度,确保模型对齐真正用户需求。
目前,企鹅混元多模态大模型已在企鹅内部 700 多个业务场景中广泛应用,包括广告领会、短视频多模态领会、搜索、内容审核等领域。面给未来,彭厚文表示,企鹅混元团队将从两个维度进一步推进多模态大模型的进步:
-
广度:继续研发全模态大模型,覆盖更多模态,设计统一的多模态模型架构。
-
深度:提高模型的智能和可靠性,寻觅智能的边界,实现模型自我进化。
圆桌对话:大模型体系技术操作
在最后的圆桌对话环节中,智源基础数据研究组负责人刘广、智谱 AI CodeGeeX 顶级算法工程师张少博、快手科技快意大模型姿势增强研发负责人毛航宇、Dify 首席架构师姜勇,在 Boolan 首席咨询师李沫南的主持下,围绕“大模型体系技术操作”展开了深入同享,涵盖了体系能力划分、开发工具链的不足以及大模型的实际应用路线等核心议题。
张少博在同享中提到,大模型体系能力的设计应注重功能的可重复性和工程化特质。那些不需要频繁调整、不会对体系或数据造成不可逆影响的操作,适合被集成到体系底层,以此提高效率和稳定性。和此同时,用户的自定义需求则应交由开发者灵活处理。例如,在智谱清言平台,涉及到内容生成、定制化操作以及代码插件(如代码生成或解释功能)的场景,可以将这些操作封装成标准化的工程模块。这种方式不仅能优化开发流程,还能确保操作的统一性和可靠性,为体系建设提供了可行的路线。
刘广则从数据处理的角度解析了大模型现有开发工具链中面临的痛点。他指出,大模型开发正在故事从以人为中心给以模型为中心转变的经过,数据标注逐渐由人工给自动化过渡。然而,目前缺乏体系化的化解方法来高效管理大规模数据标注和模型验证。虽然一些基于职业流的工具能够辅助完成初步任务,但当这些工具需要和数据库、职业流、大模型和多模态模型结合进行多集群部署和推理时,数据处理流程的复杂性显著增加。这种体系化的缺失,不仅对效率造成影响,还在数据一致性管理上形成了阻碍。
毛航宇围绕大模型的应用场景提出了深入见解。他认为,大模型虽在多个领域表现出强大潜力,但应用场景的选择应基于模型当前的实际能力,如领会、生成、推理和决策等。在此基础上,可以按照 ToC(面给消费者)和 ToB(面给企业)的路线进一步细分应用领域,明确大模型适合覆盖的场景。不过,他指出,虽然近年来关于大模型编程的讨论非常被认可,但能够实际落地的商业编程工具并不多,主要缘故在于编程任务超出了当前模型的能力范围,譬如定义变量时可以选择无数个名称(如a、b、ab等),这导致代码特别容易出现幻觉时,倘若代码量达到数千行,找到潜在的 Bug 将变得极其困难。相比之下,AI Agent 具备较高的适配性,由于任务中的参数和 API 运用通常是事先明确的,具有较高的结构化特征,是大语言模型最有潜力的应用方法其中一个。
姜勇则持有不同的看法。他表示,在现代编程操作中,代码自动补全等工具已成为开发者的重要助手,而大模型可以在已有代码基础上,根据明确需求生成代码片段,大幅提高开发效率。同时,大模型也可以进一步在企业姿势库管理方面具有特殊优势。例如,会议记录的自动整理和归档可以显著提高企业的信息管理效率,帮助企业在数字化转型经过中更高效地管理大量文档。除了这些之后,他还指出,大众对大模型的期望有时过于苛刻,追求其输出的完全正确性。事实上,许多应用场景并不需要 100% 准确率。如果大模型能将职业量减少 60%,已是特别有价格的突破。大模型的真正意义在于提高效率,即使不能完全化解难题,显著减轻人工负担也一个巨大的提高。
(来源反恐精英DN)