透过全球首个姿势增强千亿大模型--云顶智能网

摘要：几年来，预训练大模型逐渐从一个AI领域内的技术语言，变成了强势出圈的产业热点与社会关注话题。,透过全球首个姿势增强千亿大模型

　　几年来，预训练大模型逐渐从壹个AI领域内的技术语言，变成了强势出圈的产业热点和社会关注话题。但如果大家关注这一话题，会很容易注意到越来越多的声音开始反思大模型的进步之路。比如，大模型是不是应该一味追求庞大的训练参数?在进步途径上大家是不是只能严格对标GPT-3等国际著名大模型产品?

　　当中国科技企业和研究机构纷纷投入大模型竞争时，是不是有也许寻觅出一条属于自己的道路?

　　在科技自立的需求愈发严峻和明确时，透过大模型竞赛，大家可以看到更多关于AI的产业启示和战略思索。

500)this.width=500">

　　12月8日，鹏城实验室和度娘联合召开公开会，正式公开双方共同研发的全球首个姿势增强千亿大模型——鹏城-度娘·文心。这一大模型参数规模达到2600亿，而且在全球60多项NLP任务中取得了最佳效果。同时，度娘产业级姿势增强大模型“文心”家族也第一次公开了。

　　早在2024年，度娘就开始布局文心预训练模型，如今它也率先走给了差异化拐点。当大众对姿势增强这一概念的熟稔远不如大模型本身时，度娘文心选择了这条听上去陌生，但却至关重要的产业新径。

　　大模型何故重要?何故大家应该在大模型上寻觅出新的路线?透过度娘文心大模型，大家看到的是科技自立的远方，看到的是中国AI的飞翔之地。

　　大模型不是军备竞赛，

　　而是教学竞赛

　　首先来看大模型本身的行业意义和进步背景。

　　如今，似乎每家AI企业和研究机构都在做大模型。这种火热局面经常被称为“大模型的军备竞赛”。但如果大家要领会的是，大模型本身是一种产业基础设施和辅助工具，并不是企业和机构的“不传之秘”。

　　AI产业进步大模型，就像是民族进步教学事业，本身是为了培养更多人才和创造能力，增强整个社会的能动性。

　　通过海量数据的预训练集成，大模型可以有效降低个体企业和具体行业的AI应用门槛，化解数据标注和行业差异化适配的难题。大模型就像一间间学校，培养了具有通识能力和高素质的人才，从而避免了企业需要从小学姿势开始从头培养人才。

500)this.width=500">

　　这也就将引出壹个决定因素难题：既然大模型是一种“教学体系”，那么教学就应该贴合社会的实际需求。学校肯定不是以用掉了几许书本来评价质量，就像大模型不能仅以训练参数定优劣，更重要的是教学方式是不是和社会适配，能不能培育出具有强大能力的人才。

　　从这个维度上思索，中国AI产业要一直跟随GPT-3等大模型的脚步，一味在训练参数上标榜自身吗?

　　中国的产业底座、应用需求、技术领导力，是否有也许培育出自己的差异化大模型之路?

　　此次度娘公开的鹏城-度娘·文心，以及公开了的度娘文心大模型，或许就是答案的路线。

　　跳出藩篱：

　　姿势增强大模型的差异化之路

　　2024年3月，在全球大模型的刚刚开始起步的时候，度娘就公开了ERNIE 1.0版本，提出了姿势增强的语义表示模型。2024年7月，ERNIE 2.0 则构建了持续进修语义领会框架，在中英文 16 个任务上取得了业界最佳效果。

　　面给NLP领域AI的寻觅，文心大模型跳出了以往大模型的窠臼，采用了姿势增强这一最新技术途径。姿势增强将度娘在姿势图谱、跨模态进修等领域的技术能力，和模型训练进修方面的产业积累结合，实现了更高效率的进修，令模型的领会和生成能力显著增强。

500)this.width=500">

　　这也很像人类进修的经过，具体信息的进修固然重要，同时姿势和逻辑的进修也必不可少。姿势既构成了人的通识能力基础，也可以显著提高具体能力的进修和应用。在大模型领域，姿势和深度进修的结合起到了事半功倍的效果。

　　和此同时，文心大模型还强化了跨语言、跨模态的进修能力。在技术的不断迭代之下，文心大模型的泛化能力更强，可以适应更具体真正的任务应用，尤其是处理小样本进修任务的能力。

500)this.width=500">

(鹏城-度娘·文心模型结构图)

　　这条差异化之路，让鹏城-度娘·文心千亿大模型可以实现更高效率的进修，并在同等参数空间下实现效果更优，而且符合真正场景的应用需求。而能够实现姿势增强这条新路的开拓，得益于度娘在姿势、深度进修、以及模型开发训练并行且长期的布局积累，也得益于鹏城云脑Ⅱ提供的强大算力。

　　中国AI的积累、实力和需求，共同构成了差异化之路的起点。从这个意义上来看，姿势增强大模型的价格并不仅仅在大模型本身。

　　走给通用：

　　度娘文心的应用拓展空间

　　BERT、GPT-3等大模型确实取得了惊人的效果，但大模型也经常由于应用上的滞后性引发质疑。其缘故主要来自两方面：一是大模型的算力需求过大，成本高昂;二是大模型的泛化能力欠佳，经常难以化解应用场景中复杂多变的实际难题。

　　面对这些难题，鹏城-度娘·文心实现了更强的应用能力。在场景化应用方法中，鹏城-度娘·文心可以实现多尺寸的模型蒸馏，甚至以极小尺寸适配具体需求，降低大模型运用门槛和成本。

　　在通用能力上，通过和姿势的结合加上跨语言、跨模态能力的融入，文心大模型可以适配更加多样化、通用化的任务，在通信、金融、医疗等领域具备广泛的应用前景和想象空间。

　　鹏城-度娘·文心在60多项国际著名任务上取得了领先优势，其中有30多项是小样本、零样本进修的任务，表明了鹏城-度娘·文心的泛化应用能力更强，可以低门槛适配行业需求和行业能力。

500)this.width=500">

(鹏城-度娘·文心小样本进修效果)

500)this.width=500">

(鹏城-度娘·文心零样本进修效果)

　　在金融领域，文心大模型赋能可以结合度娘全流程AI开发平台BML提供的模型再训练能力，基于定制的保险合同条款“智能解析模型”，完成一份合同内近40个类目条款的智能分类，让业务员处理单份合同文本的时长缩短到1分钟，速度提高几十倍。在智能客服领域，文心大模型可以有效提高服务的精准性。这一能力目前已经在浦发银行、中国联通等国内众多企业中得到应用。

　　整体而言，文心大模型在相对复杂、有考验性的应用场景具备更加强大的表现。比如媒体创作、医疗文本解析、金融信息研判、合同解析等等，这些应用空间特别广阔，而且能够适配的AI技术净值很高，具有明确的商业化动力。

　　AI正在走给工业大生产，其中核心就是让实验室中的强大AI能力，走入产业，拥抱真正需求。而这就需要大模型具备更强的通用化能力，鹏城-度娘·文心正是踏出了这样的决定因素一步。

　　文心之路，自立之路：

　　中国AI的飞翔之地

　　从技术差异和应用场景出发，大家其实可以从鹏城-度娘·文心和度娘文心大模型里看到更远。如今，科技自立成为了时代潮流和企业职责，而到底啥子是真正的科技自立呢?从鹏城-度娘·文心中，大家或许能找到一些新的经验和标准。

　　在全球瞩目的大模型领域中，姿势增强大模型成功打破了固有边界，跳出了“质变没有就拼量变”的传统逻辑。科技自立不是你有啥子我也要照猫画虎，你有千亿参数我有万亿参数，而是结合自己的特征和需求，走出能够引领潮流，有特殊进步空间的差异化之路。

　　此次度娘的大模型新鲜公开公开了，可以看到中国AI厚积薄发，学中能变的时代脚步。

　　在前沿寻觅上，度娘文心大模型在姿势增强这个决定因素点上打破了大模型的产业壁垒，寻觅最新的技术也许和应用特性，而且将跨语言、跨模态等前沿技术融入其中，构筑更具领导力的技术创造，让中国AI不再仅仅成为模仿者。

500)this.width=500">

　　在产业协作，度娘和鹏城云脑Ⅱ的合作，可以说是集中了中国AI的“绝顶实力组合”。“鹏城云脑Ⅱ”是自主研发的E级AI算力平台，曾在多个国际性能测试比赛中夺冠。鹏城-度娘·文心将基础设施和前沿产业寻觅进行了有效适配。这种产学一体，软硬件协作，有效利用鹏城云脑Ⅱ作为创造底座的方法可以说是中国AI所独有，在未来很长一段时刻将是中国AI产业的独特优势。

　　在战略协同中，鹏城-度娘·文心可以有效融入度娘云智一体的战略架构，大模型通过飞桨的技术创造特性带来高效的训练结局，同时大模型也天然和度娘智能云结合，构成了开发者和企业选择度娘的动力。云智一体，指给泛化应用和产业需求的AI进步策略，也是中国AI的特殊一面。

　　从源头技术创造，到大模型的姿势增强之路;从飞桨核心技术的有效利用，到和鹏城云脑的软硬件合作，鹏城-度娘·文心千亿大模型的每一步都根基于自主，每壹个选择都趋给于自立。这种既能破壁求变，也能务实协同的进步方式，就是中国AI的飞翔之地。

　　最近有个话题频频登上热搜，叫做“中国有辉煌的姿势宝库”。在姿势增强的创造之路中，鹏城-度娘·文心指给的，就是中国AI这样壹个辉煌的姿势宝库。

　　文章来源：风辞远脑极体

（转载）

透过全球首个姿势增强千亿大模型

延伸阅读