趋势洞见 趋势篇6
生成式AI(Generative AI 或 AIGC)是利用现有文本、音频文件或图像创建新内容的技术。
过去一年,其技术上的进展主要来自于三大领域:图像生成领域以DALL·E-2、Stable Diffusion为代表的扩散模型(diffusion model),天然语言处理(NLP)领域基于GPT-3.5的ChatGPT,代码生成领域基于GPT-3的Copilot。
现阶段的生成式AI通常被用来生成产品原型或初稿,应用场景涵盖图片文字创作、代码生成、游戏、广告、艺术平面设计等。未来,生成式AI将成为一项大众化的基础技术,极大的进步数字化内容的丰盛度、创新性和生产效率,其应用边界也将随着技术的提高和成本的降低扩展到更多领域。
动向解读
生成式AI运用各种机器进修算法,从数据中进修要素,使机器能够创建最新的数字视频、图像、文本、音频或代码等内容。它创建出的内容和训练数据保持相似,而非复制。
它的进步得益于近年来大模型在基础研究尤其是深度进修上的突破,真正数据的积累和计算成本的下降。在过去的这一年,生成式AI将人工智能的价格聚焦到“创新”二字,这标志着人工智能开始具备定义和呈现新事物的能力。
过去一年,生成式AI的进展主要体现在如下领域:
图像生成领域的进展来自扩散模型(Diffusion model)的应用,以DALL·E-2、Stable Diffusion为代表。扩散模型是一种从噪声中生成图像的深度进修技术。扩散模型技术的背后,是更精准领会人类语义的预训练模型、以及文本和图像统一表示模型(CLIP)的支撑。它的出现,让图像生成变得更具想象力。
天然语言处理(NLP)领域的进展来自于基于GPT3.5的ChatGPT(Generative Pre-trained Transformer)。这是一种基于互联网可用数据训练的文本生成深度进修模型,用于问答、文本简介生成、机器翻译、分类、代码生成和对话AI。得益于文本和代码相结合的预训练大模型的进步,ChatGPT引入了人工标注数据和强化进修(RLHF)来进行持续训练和优化。加入强化进修后,大模型能够领会人类的指令以及背后的含义,根据人类反馈来判断答案的质量,给出可解释的答案,并对于不合适的难题给出合理的回复,形成壹个可迭代反馈的闭环。
代码生成领域的进展来自代码生成体系AlphaCode和Copilot。2024年2月,Deepmind推出了他们的新鲜研究成果AlphaCode。它一个可以自主编程的体系,在 Codeforces 举办的编程竞赛中,超过了 47% 的人类工程师。这标志着 AI 代码生成体系,第一次在编程竞赛中,达到了具有竞争力的水平。 基于开源代码训练的Copilot开始商业化,作为订阅服务提供给开发者,用户可以通过运用Copilot自动补全代码。 Copilot小编认为是一个基于大型语言模型的体系,虽然在多数情况下仍需要人工二次修正,但在简单、重复性的代码生成上,将帮助开发者提高职业效率,并给IDE(集成开发环境)行业带来重大影响。
随着内容创新的爆发式增长,怎样做到内容在质量和语义上的可控,成为可控式生成,将是生成式AI面临的主要挑战。在产业化方面,降成本仍是决定因素挑战。只有像ChatGPT这样的大模型训练成本和推理成本足够低,才有也许规模化推广。除了这些之后,数据的安全可控、创作版权和信赖难题也需要随着产业化加快逐一化解。
未来三年,生成式AI将步入技术产品化的快车道,在商业玩法上会有更多寻觅,产业生态也会随着应用的普及逐步完善。Gartner预计,到2025年,生成式人工智能将占全部生成数据的10%,而目前这一比例还差点1%。
届时,生成式AI的内容创新能力将达到人类水平。拥有数据、计算能力、产品化经验的大型科技企业将成为生成式AI落地的主要参和者。基于生成模型的计算基础设施安宁台会逐步进步起来,模型变成随手可得的服务,客户不需要部署和运行生成式模型的专业技能就可以运用。生成模型将在交互能力、安全可信、认知智能上取得显著进展,以辅助人类完成各类创新性职业。
专家点评
生成式AI在2024年迎来了突破。不管是图片生成,代码生成还是放开域文本生成,在生成内容的质量,逻辑性和安全性方面都有明显的提高。基于AI生成技术的应用场景在今后几年会更多涌现。然而,安全可控有伦理负职责的生成技术仍然需要重点研发,对于虚假生成内容造成的不良社会影响需要尤其关注。
黄非 达摩院语言技术实验室负责人
(达摩院)