1. 首页 > 人工智能

阿里达摩院金榕:从技术到科学 阿里达摩院 金榕

作者:admin 更新时间:2025-03-27
摘要:本文为阿里巴巴达摩院副院长、原密歇根州立大学终身教授金榕亲作,旨在通过这篇文章,试图通过个人视角回顾AI的发展,审视我们当下所处的历史阶段,以及探索AI的未来究竟在哪里。,阿里达摩院金榕:从技术到科学 阿里达摩院 金榕

 

  这篇文章小编将为阿里巴巴达摩院副院长、原密歇根州立大学终身教授金榕亲作,旨在通过这篇文章,试图通过个人视角回顾AI的进步,审视大家当下所处的历史阶段,以及寻觅AI的未来到底在哪里里。

500)this.width=500">

  下面内容是部分见解:

  1、AI时代序幕刚拉开,AI目前还处于初级阶段,犹如法拉第刚刚发现了探讨电,还未能从技术上升为科学。

  2、以深度进修为代表的AI研究这几年取得了诸多令人赞叹的提高,但部分也是运气的结局,其真正原理迄今无人知晓。

  3、在遇到瓶颈后,深度进修有三个也许突破路线:深度进修的根本领会、自监督进修和小样本进修、姿势和数据的有机融合。

  4、AI在当下最大的机会:用AI化解科学重要难题(AI for Science)。

  金榕:

  如果从达特茅斯会议起算,AI 已经走过65年历程,尤其是近些年深度进修兴起后,AI迎来了空前未有的繁盛。不过,最近两年中国AI 热潮似乎有所回落,在学说突破和落地应用上都遇到了挑战,外界不乏批评质疑的声音,甚至连一些AI从业者也有些沮丧。

  从90年代到美国卡耐基梅隆大学读博开始,我有幸成为一名AI研究者,见证了这个领域的一些起伏。通过这篇文章,我将试图通过个人视角回顾AI的进步,审视大家当下所处的历史阶段,以及寻觅AI的未来到底在哪里里。

  AI的历史阶段:手职业坊

  虽然有人把当下归为第三波甚至是第四波AI浪潮,乐观地认为AI时代已经到来,但我的看法要谨慎一些:AI无疑具有巨大潜力,但就目前大家的能力,AI尚处于相对初级的阶段,是技术而非科学。这不仅是中国AI的难题,也是全球AI共同面临的难题。

  这几年深度进修的快速进步,极大改变了AI行业的面貌,让AI成为公众日常运用的技术,甚至还出现了一些令公众惊奇的AI应用案例,让人误以为科幻电影马上变成现实。但实际上,技术进步需要长期积累,目前只是AI的初级阶段,AI时代才刚开始。

  如果将AI时代和电气时代类比,今天大家的AI技术还是法拉第时代的电。法拉第通过发现电磁感应现象,从而研制出人类第一台探讨电发电机原型,不可谓不辉煌。法拉第这批先行者,操作经验丰盛,通过大量观察和反复实验,手工做出了各种新产品,但他们只是拉开了电气时代的序幕。电气时代的真正大进步,很大程度上受益于电磁场学说的提出。麦克斯维尔把操作的经验变成科学的学说,提出和证明了具有跨时代意义的麦克斯维尔方程。

  如果大众对电磁的领会停留在法拉第的层次,电气革命是不也许发生的。试想一下,如果刮风下雨打雷甚至连温度变化都会导致断电,电如何也许变成壹个普惠性的产品,如何也许变成社会基础设施?又如何也许出现各种各样的电气产品、电子产品、通讯产品,彻底改变大家的生活方法?

  这也是AI目前面临的难题,局限于特定的场景、特定的数据。AI模型一旦走出实验室,受到现实全球的干扰和挑战就时常失效,鲁棒性不够;一旦换壹个场景,大家就需要从头深度定制算法进行适配,费时费力,难以规模化推广,泛化能力较为有限。

  这是由于今天的AI很大程度上是基于经验。AI工程师就像当年的法拉第,能够做出一些AI产品,但都是知其然,不知其因此然,还未能掌握其中的核心原理。

  那为何 AI 迄今未能成为一门科学?

  答案是,技术进步之缓慢远超大家的想象。回顾90年代到现在这二十多年来,大家看到的更多是 AI 应用工程上的快速提高,核心技术和核心难题的突破相对有限。一些技术看起来是这几年兴起的,实际上早已存在。

  以自动驾驶为例,美国卡耐基梅隆大学的研究人员进行的Alvinn项目,在80年代末已经开始用神经网络来实现自动驾驶,1995年成功自东给西穿梭美国,历时7天,行驶近3000英里。在下棋方面,1992年IBM研究人员开发的TD-Gammon,和AlphaZero相似,能够自我进修和强化,达到了双陆棋领域的大师水平。

500)this.width=500">

(1995年穿梭美国项目开始之前的团队合照)

  不过,由于数据和算力的限制,这些研究只是点状发生,没有形成规模,天然也没有引起大众的广泛讨论。今天由于商业的普及、算力的增强、数据的方便获取、应用门槛的降低,AI开始触手可及。

  但核心想法并没有根本性的变化。大家都是试图用有限样本来实现函数近似从而描述这个全球,有壹个input,再有壹个output,大家把AI的进修经过想象成壹个函数的近似经过,包括大家的整个算法及训练经过,如梯度下降、梯度回传等。

  同样的,核心难题也没有得到有效化解。90年代学界就在问的核心难题,迄今都未得到回答,他们都和神经网络、深度进修密切相关。比如非凸函数的优化难题,它得到的解很也许是局部最优解,并非全局最优,训练时也许都无法收敛,有限数据还会带来泛化不足的难题。大家会不会被这个解带偏了,忽视了更多的也许性?

  深度进修:大繁盛后遭遇进步瓶颈

  毋庸讳言,以深度进修为代表的 AI 研究这几年取得了诸多令人赞叹的提高,比如在复杂网络的训练方面,产生了两个特别成功的网络结构,CNN和transformer。基于深度进修,AI研究者在语音、语义、视觉等各个领域都实现了快速的进步,化解了诸多现实难题,实现了巨大的社会价格。

  但回过头来看深度进修的进步,不得不感慨 AI 从业者特别幸运。

  首先是随机梯度下降(SGD),极大推动了深度进修的进步。随机梯度下降其实一个很简单的方式,具有较大局限性,在优化里面属于收敛较慢的方式,但它偏偏在深度网络中表现很好,而且还是出奇的好。何故会这么好?迄今研究者都没有最佳的答案。类似这样难以领会的好运气还包括残差网络、姿势蒸馏、Batch Normalization、Warmup、Label Smoothing、Gradient Clip、Layer Scaling…尤其是有些还具有超强的泛化能力,能用在多个场景中。

  再者,在机器进修里,研究者一直在警惕过拟合(overfitting)的难题。当参数特别多时,一条曲线能够把全部的点都拟合得特别好,它大概率存在难题,但在深度进修里面这似乎不再成为壹个难题…

  虽然有很多研究者对此进行了探讨,但目前还有没有明确答案。更加令人惊讶的是,大家即使给数据壹个随机的标签,它也可以最佳拟合(请见下图红色曲线),最后得出拟合误差为0。如果按照标准学说来说,这意味着这个模型没有任何偏差(bias),能帮大家解释任何结局。请想想看,任何物品都能解释的模型,真的可靠吗,包治百病的良药可信吗?

500)this.width=500">

(Understanding deep learning requires rethinking generalization. ICLR, 2024.)

  说到这里,让大家整体回顾下机器进修的进步历程,才能更好领会当下的深度进修。

  机器进修有几波进步浪潮,在上世纪80年代到90年代,首先是基于制度(rule based)。从90年代到2000年代,以神经网络为主,大家发现神经网络可以做一些不错的事务,然而它有许多基础的难题没回答。因此2000年代以后,有一批人尝试去化解这些基础难题,最有名的叫SVM(support vector machine),一批数学背景出身的研究者集中去领会机器进修的经过,进修最基础的数学难题,怎样更好实现函数的近似,怎样保证快速收敛,怎样保证它的泛化性?

  那时候,研究者特别强调领会,好的结局应该是来自于大家对它的深刻领会。研究者会特别在乎有没有好的学说基础,由于要对算法做好的解析,需要先对泛函解析、优化学说有深刻的领会,接着还要再做泛化学说…大概这几项都得特别好了,才也许在机器进修领域有发言权,否则连文章都看不懂。如果研究者自己要做壹个大规模实验体系,特别是分布式的,还需要有工程的丰盛经验,否则根本做不了,那时候没有太多现成的物品,更多只是学说,多数工程实现需要靠自己去跑。

  然而深度进修时代,有人做出了特别好的框架,便利了全部的研究者,降低了门槛,这真是特别了不起的事务,促进了行业的快速进步。今天去做深度进修,有个好想法就可以干,只要写上几十行、甚至十几行代码就可以跑起来。成千上万人在实验各种各样的新项目,验证各种各样新想法,经常会冒出来特别让人惊喜的结局。

  但大家也许需要觉悟到,时到现在日,深度进修已遇到了很大的瓶颈。那些曾经帮助深度进修成功的好运气,那些无法领会的黑盒效应,今天已成为它进一步进步的桎梏。

  下一代AI的三个也许路线

  AI 的未来到底在哪里里?下一代 AI 将是啥子?目前很难给出明确答案,但我认为,至少有三个路线值得重点寻觅和突破。

  第壹个路线是寻求对深度进修的根本领会,破除目前的黑盒情形,只有这样AI才有也许成为一门科学。具体来说,应该包括对下面内容决定因素难题的突破:

  对基于DNN函数空间的更综合刻画;

  对SGD(或更广义的一阶优化算法)的领会;

  从头思考泛化学说的基础。

  第二个路线是姿势和数据的有机融合。

  人类在做大量决定时,不仅运用数据,而且大量运用姿势。如果大家的AI能够把姿势结构有机融入,成为重要组成部分,AI势必有突破性的进步。研究者已经在做姿势图谱等职业,但需要进一步化解姿势和数据的有机结合,寻觅出可用的框架。之前曾有些创造性的尝试,比如Markov Logic,就是把逻辑和基础学说结合起来,形成了一些有趣的结构。

  第三个重要路线是自监督进修和小样本进修。

  我虽然列将这个列在第三,但却是目前值得重点推进的路线,它可以弥补AI和人类智能之间的差距。

  今天大家经常听说 AI 在一些能力上可以超越人类,比如语音识别、图像识别,最近达摩院 AliceMind 在视觉问答上的得分也第一次超过人类,但这并不意味着 AI 比人类更智能。谷歌2024年有篇论文 on the Measure of intelligence 特别有洞察力,核心见解是说,真正的智能不仅要具有高超的技能,更重要的是能不能快速进修、快速适应或者快速通用?

  按照这个见解,目前AI是远不如人类的,虽然它也许在一些方面的精度超越人类,但可用范围特别有限。这里的根本缘故在于:人类只需要很小的进修成本就能快速达到结局,伶俐的人更是如此——这也是我认为目前AI和人类的主要不同差异其中一个。

  有壹个很简单的事实证明 AI 不如人类智能,以翻译为例,现在好的翻译模型至少要亿级的数据。如果一本书大概是十几万字,AI大概要读上万本书。大家很难想象壹个人为了进修一门语言需要读上万本书。

  另外有意思的对比是神经网络结构和人脑。目前AI特别强调深度,神经网络经常几十层甚至上百层,但大家看人类,以视觉为例,视觉神经网络总共就四层,特别高效。而且人脑还特别低功耗,只有20瓦左右,但今天GPU基本都是数百瓦,差了壹个数量级。著名的GPT-3跑一次,碳排放等于于一架747飞机从美国东海岸到西海岸往返三次。再看信息编码,人脑是以时刻序列来编,AI是用张量和给量来表达。

  也许有人说,AI进步不必一定给人脑智能的路线进步。我也认为这个见解不无道理,但在 AI 遇到瓶颈,也找差点其他参照物时,参考人脑智能也许会给大家一些启发。比如,拿人脑智能来做对比,今天的深度神经网络是不是最合理的路线?今天的编码方法是不是最合理的?这些都是大家今天AI的基础,但它们是好的基础吗?

  应该说,以GPT-3为代表的大模型,也许也是深度进修的壹个突破路线,能够在一定程度上实现自进修。大模型有些像之前恶补了全部能看到的物品,碰到壹个新场景,就不需要太多新数据。但这一个最好的化解办法吗?大家目前还不了解。还是以翻译为例,很难想象壹个人需要装这么多物品才能掌握一门外语。大模型现在都是百亿、千亿参数规模起步,没有壹个人类会带着这么多数据。

  因此,也许大家还需要继续寻觅。

  AI的机会:AI for Science

  说到这里,也许有些人会失望。既然大家 AI 还未化解上面的三个难题,AI还未成为科学,那AI还有啥子价格 ?

  技术本身就拥有巨大价格,像互联网就彻底重塑了大家的职业和生活。AI 作为一门技术,当下壹个巨大的机会就是帮助化解科学重点难题(AI for Science)。AlphaFold 已经给了大家壹个很好的示范,AI化解了生物学里困扰半个世纪的蛋白质折叠难题。

  大家要进修 AlphaFold,但没必要崇拜。AlphaFold的示范意义在于,DeepMind 在选题上真是特别最牛,他们选择了一些今天已经有足够的基础和数据积累、有也许突破的难题,接着建设壹个当下最好的团队,下决心去攻克。

  大家有也许创新比 AlphaFold 更重要的成果,由于在天然科学领域,有着很多重要的open questions,AI 还有更大的机会,可以去发掘新材料、发现晶体结构,甚至去证明或发现定理… AI可倾败传统的研究方式,甚至改写历史。

  比如现在一些物理学家正在思索,能不能用 AI 从头发现物理定律?过去数百年来,物理学定律的发现都是依赖天才,爱因斯坦发现了广义相对论和狭义相对论,海森堡、薛定谔等人开创了量子力学,这些都是个人行为。如果没有这些天才,很多领域的进步会推迟几十年甚至上百年。但今天,随着数据越来越多,科学规律越来越复杂,大家是不是可以依靠AI来推导出物理定律,而不再依赖一两个天才?

  以量子力学为例,最核心的是薛定谔方程,它是由天才物理学家推导出来的。但现在,已有物理学家通过收集到的大量数据,用 AI 自动推导出其中规律,甚至还发现了薛定谔方程的另外壹个写法。这真的是一件特别了不起、有也许改变物理学甚至人类未来的事务。

  大家正在推进的AI EARTH项目,是将AI引入气象领域。天气预报已有上百年历史,一个特别重大和复杂的科学难题,需要超级计算机才能完成复杂计算,不仅消耗大量资源而且还不是特别准确。大家今天是不是可以用AI来化解这个难题,让天气预报变得既高效又准确?如果能成功,将是一件特别振奋人心的事务。当然,这注定一个特别艰难的经过,需要时刻和决心。

  AI 从业者:多一点兴趣,少一点功利

  AI 的当下局面,是对大家全部AI研究者的考验。不管是AI的基础学说突破,还是AI 去化解科学难题,都不是一蹴而就的事务,需要研究者们既伶俐又坚决。如果不伶俐,不也许在不确定的未来抓住机会;如果不坚决,很也许就被吓倒了。

  但更决定因素的是兴趣驱动,而不是利益驱动,不能急功近利,这些年深度进修的繁盛,使得中国大量人才和资金涌入AI领域,快速推动了行业进步,但也催生了一些不切实际的期待。像DeepMind做了AlphaGo之后,中国一些人跟进复制,但对于核心基础创造提高来说意义相对有限。

  既然 AI 还不是一门科学,大家要去寻觅没人做过的事务,很有也许失败。这意味着大家必须有真正的兴趣,靠兴趣和好奇心去驱动自己前行,才能扛过无数的失败。大家也许看到了DeepMind做成了AlphaGo和AlphaFold两个项目,但也许还有更多失败的、无人听闻的项目。

  在兴趣驱动方面,国外研究人员值得大家进修。像一些获取图灵奖的极致科学家,天天还在一线做研究,亲自推导学说。还记得在CMU读书的时候,当时学校有多个图灵奖得主,他们平常基本都穿梭在各种seminar(研讨班)。我认识其中壹个叫Manuel Blum,由于密码学研究获取图灵奖,有一次我参与壹个seminar,发现Manuel Blum没有座位,就坐在教室的台阶上。他自己也不介意坐何处,感兴趣就来了,没有座位就挤一挤。我曾有幸遇到过诺贝尔经济学奖得主托马斯·萨金特,作为经济学者,他早已功成名就,但他60岁开始进修广义相对论,70岁开始进修深度进修,76岁还和大家这些晚辈讨论深度进修的进展…也许这就是对研究的真正热爱吧。

  说回国内,大家也不必妄自菲薄,中国AI在工程方面拥有全球领先的实力,承认AI还相对初级并非否定从业者的努力,而是提醒大家需要更坚决地长期努力,不必急于一时。电气时代如果没有法拉第这些先行者,没有壹个又壹个的点状发现,不也许拓展资料出学说,让人类迈入电气时代。

  同样,AI进步有赖于大家以重大创造为憧憬,一天天努力,不断尝试新想法,接着才会有一些小突破。当一些伶俐的脑袋,能够将这些点状的突破联结起来,拓展资料出来学说,AI才会产生重大突破,最终上升为一门科学。

  大家已经半只脚踏入AI时代的大门,这注定一个比电气时代更加巅峰、激动人心的时代,但这一切的前提,都有赖于全部研究者的坚决不移的努力。

(转载)