趋势洞见趋势篇6--云顶智能网

摘要：生成式AI(Generative AI 或 AIGC)是利用现有文本、音频文件或图像创建新内容的技术。,趋势洞见趋势篇6

生成式AI(Generative AI 或 AIGC)是利用现有文本、音频文件或图像创建新内容的技术。

过去一年，其技术上的进展主要来自于三大领域：图像生成领域以DALL·E-2、Stable Diffusion为代表的扩散模型(diffusion model)，天然语言处理(NLP)领域基于GPT-3.5的ChatGPT，代码生成领域基于GPT-3的Copilot。

现阶段的生成式AI通常被用来生成产品原型或初稿，应用场景涵盖图片文字创作、代码生成、游戏、广告、艺术平面设计等。未来，生成式AI将成为一项大众化的基础技术，极大的进步数字化内容的丰盛度、创新性和生产效率，其应用边界也将随着技术的提高和成本的降低扩展到更多领域。

动向解读

生成式AI运用各种机器进修算法，从数据中进修要素，使机器能够创建最新的数字视频、图像、文本、音频或代码等内容。它创建出的内容和训练数据保持相似，而非复制。

它的进步得益于近年来大模型在基础研究尤其是深度进修上的突破，真正数据的积累和计算成本的下降。在过去的这一年，生成式AI将人工智能的价格聚焦到“创新”二字，这标志着人工智能开始具备定义和呈现新事物的能力。

过去一年，生成式AI的进展主要体现在如下领域：

图像生成领域的进展来自扩散模型(Diffusion model)的应用，以DALL·E-2、Stable Diffusion为代表。扩散模型是一种从噪声中生成图像的深度进修技术。扩散模型技术的背后，是更精准领会人类语义的预训练模型、以及文本和图像统一表示模型(CLIP)的支撑。它的出现，让图像生成变得更具想象力。

天然语言处理(NLP)领域的进展来自于基于GPT3.5的ChatGPT(Generative Pre-trained Transformer)。这是一种基于互联网可用数据训练的文本生成深度进修模型，用于问答、文本简介生成、机器翻译、分类、代码生成和对话AI。得益于文本和代码相结合的预训练大模型的进步，ChatGPT引入了人工标注数据和强化进修(RLHF)来进行持续训练和优化。加入强化进修后，大模型能够领会人类的指令以及背后的含义，根据人类反馈来判断答案的质量，给出可解释的答案，并对于不合适的难题给出合理的回复，形成壹个可迭代反馈的闭环。

代码生成领域的进展来自代码生成体系AlphaCode和Copilot。2024年2月，Deepmind推出了他们的新鲜研究成果AlphaCode。它一个可以自主编程的体系，在 Codeforces 举办的编程竞赛中，超过了 47% 的人类工程师。这标志着 AI 代码生成体系，第一次在编程竞赛中，达到了具有竞争力的水平。基于开源代码训练的Copilot开始商业化，作为订阅服务提供给开发者，用户可以通过运用Copilot自动补全代码。 Copilot小编认为是一个基于大型语言模型的体系，虽然在多数情况下仍需要人工二次修正，但在简单、重复性的代码生成上，将帮助开发者提高职业效率，并给IDE(集成开发环境)行业带来重大影响。

随着内容创新的爆发式增长，怎样做到内容在质量和语义上的可控，成为可控式生成，将是生成式AI面临的主要挑战。在产业化方面，降成本仍是决定因素挑战。只有像ChatGPT这样的大模型训练成本和推理成本足够低，才有也许规模化推广。除了这些之后，数据的安全可控、创作版权和信赖难题也需要随着产业化加快逐一化解。

未来三年，生成式AI将步入技术产品化的快车道，在商业玩法上会有更多寻觅，产业生态也会随着应用的普及逐步完善。Gartner预计，到2025年，生成式人工智能将占全部生成数据的10%，而目前这一比例还差点1%。

届时，生成式AI的内容创新能力将达到人类水平。拥有数据、计算能力、产品化经验的大型科技企业将成为生成式AI落地的主要参和者。基于生成模型的计算基础设施安宁台会逐步进步起来，模型变成随手可得的服务，客户不需要部署和运行生成式模型的专业技能就可以运用。生成模型将在交互能力、安全可信、认知智能上取得显著进展，以辅助人类完成各类创新性职业。

专家点评

生成式AI在2024年迎来了突破。不管是图片生成，代码生成还是放开域文本生成，在生成内容的质量，逻辑性和安全性方面都有明显的提高。基于AI生成技术的应用场景在今后几年会更多涌现。然而，安全可控有伦理负职责的生成技术仍然需要重点研发，对于虚假生成内容造成的不良社会影响需要尤其关注。

黄非达摩院语言技术实验室负责人

（达摩院）

趋势洞见 趋势篇6

延伸阅读

趋势洞见趋势篇6