高通在2023年国际计算机视觉和玩法识别会议上 高通今年还会出芯片么
6月18日至22日,IEEE/CVF国际计算机视觉和玩法识别会议(CVPR)在温哥华举行,该会议不仅是计算机视觉,也是AI领域最重要的年度活动主题其中一个。会议期间,高通展示了已被业界认可的研究论文和技术示范。这篇文章小编将将说明CVPR 2024上高通的展示亮点。
技术示范
大家在AI、计算机视觉、XR和自动驾驶汽车等领域的研究,已从核心学说创造扩展到下游实际应用,例如:
运行在手机上的全球更快的ControlNet示范
多少月前,大家展示了全球首个运行在Android手机上的Stable Diffusion终端侧示范,该示范在CVPR上再次呈现。除了这些之后,高通AI研究示范了ControlNet图像生成图像模型,该模型拥有15亿参数,可以完全在手机上运行。ControlNet是一项生成式AI化解方法,被称为语言-视觉模型(LVM)。它能够通过调整输入图像和输入文本描述,更精准地控制生成图像。在这项示范中,只用差点12秒即可在移动终端上生成AI图像,无需访问任何云端,便能提供高效、有趣、可靠且私密的交互式用户尝试。这项惊艳的技术示范通过一套跨模型架构、AI软件和神经网络硬件加速器的全栈式AI优化而实现。在此经过中运用的高通先进AI工具和硬件包括:高通AI模型增效工具包(AIMET)、高通AI软件栈和高通AI引擎。
支持基于实时视觉大语言模型的健身教练
高通AI研究利用生成式AI打造出在准确度和真正感方面超越现有化解方法的数字健身教练。健身教练能够提供实时互动,鼓励、纠正并帮助用户实现其健身目标。大家的示范展示了基于视觉的大语言模型怎样支持情境式、多模态的实时交互。用户的运动视频流先经过动作识别模型进行处理。根据识别的动作,情形编排器(stateful orchestrator)提供提示并输入给大语言模型。健身教练通过壹个语音合成(文本生成语音)的虚拟化身,将大语言模型的答复送回给用户。这项示范的实现主要归功于三项决定因素创造:为检测精细化健身动作而训练的视觉模型、为生成基于视觉概念的语言而训练的语言模型,以及能够协调两个模态之间流动交互的编排器,便于实时对话式的辅导反馈。凭借上述创造,就能够支持健身教练为用户提供实时的沉浸式动态交互尝试。
全球首个在手机上进行的1080p神经网络视频编码
终端侧AI的另一项全球首创即在移动终端上的1080p视频编码和解码经过。神经网络编解码器用途特别广泛:可针对特定视频需求进行定制,通过生成式AI的优势对感知质量进行优化,扩展至最新模态,在通用AI硬件上运行。但同时也将带来难以在计算能力有限的终端上应对的诸多挑战。高通设计了最新高效的神经网络视频帧间压缩架构,支持在终端上进行1080p视频编码。在示范中,神经网络视频编解码器能够准确地保留高清视频的丰盛视觉结构和复杂动作。
面给XR的3D重建
高通成功开发了先进的实时3D重建体系,该体系在准确度和高效方面表现出色,能够在任何环境下赋能创建高精度的3D模型。该化解方法在移动终端上运行,从单个图像生成深度图,并将其组合成3D场景。有了准确的实时3D地图,开发者可以解开大量AR和VR应用。大家设计的互动示范展示了高通的创造实力,用户可给场景中的真正物体(比如墙壁和家具)STG虚拟球,见证基于精确物理计算的逼真反弹效果。该感知技术提高了沉浸式尝试,并有望加速元宇宙的广泛普及。
面给智能摄像头的计算机视觉
基于AI的计算机视觉的提高,推动照片和视频拍摄能力持续演进。大家示范了语义分割、单目深度估测和基于实例分割的虚化效果、背景替换、电影玩法,以及锐度、平滑度、清晰度和对比度方面相关的图像质量提高。这些神经网络在搭载骁龙平台的终端上实时运行视频增强特性。
为增强安全性的驾驶员监测技术
驾驶员监测体系(DMS)示范中展示了怎样利用计算机视觉判断危险驾驶状况以进步安全性。驾驶员监测体系通过座舱内主动红外摄像机实时监测驾驶员的特征,如眼睛睁开程度、凝视路线、头部姿势、面部表情和肢体动作等,从而判断驾驶员的驾驶情形。该体系在检测到类似注意力分散和瞌睡等危险驾驶情况时会给司机发出警告,最终帮助挽救生活。驾驶员监测体系和先进驾驶辅助体系(ADAS)能够同时在Snapdragon Ride Flex体系级芯片上同步运行。
XR虚拟头像
无论逼真或卡通风格,虚拟化身是赋能元宇宙中沉浸式XR尝试的基本要素。借助一张或多张2D照片,利用终端侧AI生成特点化网格和相应的纹理。运用头戴式摄像机来观察用户眼睛和嘴巴的移动,实时渲染虚拟头像。由此,可生成更接近于标准现实重建和动画后的虚拟化身,并根据环境进行光照处理。大家的目标是在元宇宙和人机界面中运用的骁龙XR平台上提供数字人。
研究论文
类似CVPR的极致行业会议在推动AI领域进步方面发挥决定因素影响,能够为业内人士展示经过业内严格评审、确立最先进技术水平的论文,推动具有深远影响的研究。CVPR 2024期间,高通共有八篇论文被主会议收录,主要从两大类别推动计算机视觉前沿进步:充分利用数据和打造更佳架构。
充分利用数据
在《DistractFlow:通过真正干扰和伪标记改进光流估计模型》中,大家提出了专门化解在训练光流估计模型时数据可用性受限难题的一项最新数据增强技术。当缺少有代表性和多样化的数据样本时,将会引发这一难题,这是运动估计中的固有难题。大家提出的方式能够克服这种局限性,通过将真正干扰混入已标记的输入帧,可以增强模型的泛化能力。当未标记数据可用时,大家运用伪标记和交叉一致性正则化,将增强功能扩展到自监督配置中,这样能够大幅增加训练对的数量,无需复杂、昂贵的数据采集。多项基准测试的综合评估显示,大家的方式都能够进步光流估计表现。
《面给单域泛化的渐进式随机卷积》提出了运用基于渐进式随机卷积(Pro-RandConv)的新型图像增强方式的数据高效框架。这一渐进式方式能够通过减少卷积核感受野中非局部像素的影响,缓解增强图像中的语义失真,通过逐渐增加风格多样性,来生成更有效的、更有代表性的域。在单域和多域图像分类、识别和分割基准测试中,这种泛化策略优于最先进的方式。
基于进修的视线估计需要大量准确标注视线的训练数据。在《ReDirTrans:面给视线和头部重定给的latent-to-latent转换》中,大家提出了名为ReDirTrans的神经网络,基于指定路线值,以一种可解释的方法在高分辨率全脸图像中从头定给视线路线和头部方位,latent-to-latent转换。通过结合ReDirTrans和预训练的e4e-StyleGAN对,大家创建了ReDirTrans-GAN,能够准确重定给视线,同时保留身份、表情和发型等其他属性。
在《DejaVu:通过再生式进修增强密集预测》中,大家展示了面给分割、深度估计和表面法线预测等密集预测任务,利用条件图像再生作为训练时的额外监督来改进深度网络的最新框架。这一框架能够让基础网络进修在密集预测中嵌入准确的场景结构。这将带来更准确的预测,具有更清晰的边界和更佳的空间一致性。通过在多个密集预测基准测试中的广泛实验,大家展示了在训练期间采用这一框架的效果,它可以在不增加计算成本的情况下优于最先进的方式。
创建更佳架构
在《X3-KD:面给3D物体检测的跨模态、跨阶段、跨任务姿势提炼》中提出的方式,一个面给多摄像头3D物体检测(3DOD)跨不同模态、任务和阶段的综合性姿势提炼框架。具体来讲,大家提出在透视图特征提取阶段,从实例分割教师(X-IS)跨任务提炼,通过视图变换提供无模糊误差反给传播的监督。在变换后,大家通过基于激光雷达的3DOD教师中所包含的信息,运用跨模态特征提炼(X-FD)和对抗性训练(X-AT),提高3D全球多摄像头特征表示。该模型在决定因素数据集上表现优于最先进的方式,可面给基于雷达的3DOD进行泛化。
在《EcoTTA:通过自蒸馏正则化实现内存高效的连续测试时刻自适应》中,大家提出了一种简单有效的方式,从而能够以内存高效的方法改进连续测试时刻自适应(TTA)。由于TTA主要在内存有限的边缘侧终端上进行,因此减少内存至关重要,但以前的TTA研究中经常忽略这一点。除了这些之后,长期自适应往往会导致灾难性遗忘和误差累积,这将阻碍在现实部署中对TTA的应用。大家的方法从两方面来化解这些难题。首先,它运用轻量级元网络使原始网络适应到目标域。通过降低反给传播所需的中间激活的大致,尽也许地减少内存。其次,新型自蒸馏正则化能控制元网络输出不明显偏离原始网络的输出,从而保留来自源域的经过良好训练的姿势。因此,大家的方式保留了来自源域的经过良好训练的姿势。这种高效的策略在各类基准测试中都远超其他面给图像分类和语义分割的顶尖方式。
《面给类别增量进修的密集网络扩展》化解了增量进修的难题。文章提出了一种称为密集网络扩展(DNE)的最新网络扩展方式,旨在实现准确性和模型复杂性之间更好的平衡。这种平衡通过在任务专家网络的中间层之间引入密集连接来实现,经过特征共享和复用完成从旧任务给新任务的姿势迁移。这种共享是通过基于最新任务注意力模块(棋牌)的,融合跨任务信息的跨任务注意力机制实现的。基于DNE的方式和之前的方法相比,准确度提高了4%,而模型规格则相似甚至更小。
在《PartSLIP:通过预训练的图像语言模型面给三维点云提供小样本零件分割》中,大家提出了一种利用预训练语言-视觉模型(LVMs)的新鲜进展实现零样本和小样本可泛化3D零件分割的新方式。目前,语言-视觉模型只能在2D图像上运行,因此不能直接用于3D零件分割。大家设计了一款3D融合模块,能够处理壹个物体的多个视图结局,进行融合后可以在三维点云上进行零件分割,并在3D基准数据库中达成令人信服的成果。
(转载)