商汤绝影智能汽车事业群总裁王晓刚：通用人工智能下的智能汽车商汤绝影智能汽车上海临港--云顶智能网

摘要：“通用人工智能将打造智能汽车的‘智慧飞轮’，让人、车和模型之间产生更多有效交互，打通三者之间的互动闭环，让AI更精准地理解人的需求，带来更好的驾乘体验。,商汤绝影智能汽车事业群总裁王晓刚：通用人工智能下的智能汽车商汤绝影智能汽车上海临港

“通用人工智能将打造智能汽车的‘聪明飞轮’，让人、车和模型之间产生更多有效交互，打通三者之间的互动闭环，让AI更精准地领会人的需求，带来更好的驾乘尝试。” 商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚在2024中国电动汽车百人会智能汽车论坛上说。

上周，由中国电动汽车百人会主办，清华大学、中国汽车工程学会、中国汽车工业协会、中国汽车技术研究中心、中国汽车工程研究院协办的2024中国电动汽车百人会论坛在北京成功举办。商汤科技联合创始人王晓刚教授受邀出席会议，并发表《通用人工智能下的智能汽车》主旨演讲，为大众描绘了通用人工智能(AGI)赋能人机共智的美妙未来。

下面内容为王晓刚教授演讲内容梳理。

通用人工智能引发新一轮范式革新

新年伊始，ChatGPT 、GPT-4 掀起了通用人工智能的热潮，这是一场新的技术革命。特别有幸和大家一起探讨通用人工智能和多模态大模型为智能汽车带来的机遇和挑战。

2024年以来，新的通用人工智能开始以更加高效的方法化解海量的放开式任务。它更加接近人的智能，而且能够产生有聪明的内容，也带来了新的研究范式——基于壹个特别强大的多模态基模型，通过强化进修和人的反馈，不断解开模型的新能力。

那么，啥子是通用人工智能?它和现有的人工智能体系有哪些不同差异?

其实，现有的人工智能体系也能够接收多模态数据，但输出的任务都是事先定义好的，若为体系增加壹个新任务，就要对其进行从头设计，还要采集大量样本。

而在通用人工智能时代，大众通过输入提示词和多模态内容，便可生成多模态数据。更重要的是，它可以用天然语言方法生成任务描述，以特别灵活的方法应对大量长尾难题和放开性任务，甚至是一些主观的描述。

比如，在做一些特定场景的检索任务时，壹个现有的人工智能体系也许有几十个标签。商汤做过实验，如果用天然语言描述也许会有1万多个词，通过它们的组合去描述各种任务，实际上是特别强大且灵活的。

举个例子，给定一张自动驾驶场景中的图片，判断是否需要减速。通过现有的 AI体系，首先要做物体检测，接着在物体框里做文字识别，最后做决策，整个经过每壹个模块都是事先定义好的任务。

而在通用人工智能技术下，给定图像，大众只需用天然语言去问图像难题，比如“这个图标是啥子意思?”“接下来应该做啥子?”模型本身不会发生变化，输出端通过天然语言的方法给出一系列逻辑推理，最后得出结论。比如，它会告知你“限速30公里”“前面100米是学校的区域”“有小孩”“应该小心驾驶”“需将车速降到30公里下面内容”等操作。

可以看到，这都是一些放开式的新任务，可以对人工智能体系带来特别大的变革。

从“数据飞轮”到“聪明飞轮”

通用人工智能还有特别强的一点，它能够产生内容，而且是有聪明的内容。

自动驾驶/智能汽车领域有“数据飞轮”说法，即模型能够加持终端，采取高质量的数据对模型进行更新，接着再从终端提高数据的量和质。

通用人工智能时代则会产生“聪明飞轮”，人和模型之间可以产生互动。当大众为模型输入Align With Human Intention时，虽然模型很强大，但它并不了解大众需要啥子样的能力，不过通过人的反馈，它就能更好地领会人需要它展示啥子样的能力而去解开更多的技能，同时模型为人输出有聪明的内容，从而激发大众更多的创作聪明，随后又会产生新的“聪明飞轮”。

值得一提的是，AGI对算力的需求特别大。ChatGPT具备1750亿参数, 需要3000~5000张A100训练卡，一次训练的成本上千万美金。直到今天，它的推理成本每天也高达几百万美金。

2024年，商汤提前布局，在上海临港建立了人工智能计算中心(AIDC)。作为SenseCore商汤 AI大装置的算力基座，AIDC基于2.7万块GPU的并行计算体系实现了5.0 exaFLOPS的算力输出，可支持最多20个千亿参数量超大模型(以千卡并行)同时训练。

从2024年开始，商汤从10亿参数的视觉模型研发，到今天有320亿参数全球最大规模的通用视觉模型。在NLP领域，商汤当前也有接近2000亿参数的大模型，有能力去训练1800亿参数的多模态大模型。因此，未来通用人工智能基于多模态的基模型可以做视觉感知、语言领会、内容生成和推理决策。

通用人工智能赋能绝影驾、舱、云三位一体产品体系

商汤绝影是商汤旗下的智能汽车业务板块，坚持驾、舱、云三位一体的进步策略，希望通过驾舱融合带来更好的驾乘尝试。

商汤AI云能够为自动驾驶提供数据闭环服务，能够使智能座舱成为第三生活空间。同时，AI云也为通用人工智能赋能智能驾驶和智能座舱奠定了特别强大的基础。

在自动驾驶领域，BEV是当前主流的技术路线，未来可以朝着多模态、通用智能的路线进步。

通过AIGC可生成困难样本，在模型中输入多模态数据，同时自动驾驶多模态大模型可以做到感知和决策一体化。在输出端，通过环境解码器可对3D环境进行重建，实现环境的可视化领会;行为解码可生成完整的途径规划;同时，动机解码器可以用天然语言描述推理的经过，进而使自动驾驶体系变得可以解释。

商汤基于多模态大模型，可做到数据的感知闭环和决策闭环。从前端自动采集高质量的数据，到利用大模型进行自动化的数据标注和产品检测，能够几百倍地提高模型迭代的效率并降低成本。

在智能座舱板块，通用人工智能可以使基模型具备对空间环境领会、用户情形感知、多模态指令解析及多轮逻辑对话、内容生成等一系列能力，进而赋能包括心情感知、智能助手、基于情感的对话、创意内容生成、特点交互等一系列功能，不断地提高座舱的特点化尝试。

同时，应用场景也可以从上车、行车、停车、离车，进而拓展到娱乐、办公、购物、休息等等。

实际上，智能汽车是通用人工智能实现闭环的壹个理想场景，人类已经可以做到人机共驾。未来，车和模型之间能够产生更有效的互动，从而完成从人到车、到模型的互动闭环，通用人工智能可为大众提供更好的驾乘尝试，解开无限的想象空间。

商汤愿和客户及合作伙伴共同迈给通用人工智能时代!

（商汤科技）

商汤绝影智能汽车事业群总裁王晓刚：通用人工智能下的智能汽车 商汤绝影智能汽车上海临港

延伸阅读

商汤绝影智能汽车事业群总裁王晓刚：通用人工智能下的智能汽车商汤绝影智能汽车上海临港