伦理即服务:科技伦理和可信AI的下壹个浪潮 伦理是一种什么用来保证专业工作者的服务质量
“必选项”和“必答题”
对于科技行业而言,科技伦理已是“必选项”和“必答题”。,伦理即服务:科技伦理和可信AI的下壹个浪潮 伦理是一种什么用来保证专业工作者的服务质量
500)this.width=500">
科技伦理成为
“必选项”和“必答题”
对于科技行业而言,科技伦理已是“必选项”和“必答题”。科技伦理被写入了十九届四中全会《决定》和《十四五规划和2035年远景目标纲要》,上升到了民族顶层政策设计。在监管层面,互联网监管聚焦人工智能算法应用,算法滥用、算法主推的治理被提上日程,《数据安全法》标准数据活动主题和数据新技术应当“符合社会公德和伦理”。
科技伦理是科技活动主题必须遵守的价格准则,科技企业需要践行科技伦理。现在5月,在旷视科技IPO经过中,上交所第一次对科技伦理进行了问询,标准旷视披露企业在人工智能伦理方面的组织架构、核心守则、内部控制及执行情况。现在7月28日,科技部公开《关于加强科技伦理治理的指导意见(征求意见稿)》,明确了伦理先行、敏捷治理等基本标准,并提出了五项科技伦理守则,同时标准企业根据实际情况建立科技伦理(审查)委员会,并标准“从事生活科学、医学、人工智能等科技活动主题的机构,研究内容涉及科技伦理敏感领域的,应设立科技伦理(审查)委员会”,除了这些之后还标准对科技人员加强科技伦理培训。《深圳经济特区人工智能产业促进条例(草案)》标准人工智能企业“设立伦理风险岗位”,“履行伦理审查和风险评估责任”。
可信的(trustworthy)、负职责的(responsible)、以人为本(human-centric)的人工智能已是AI领域的主旋律。然而,过去几年这一领域的主要进展停留在提出、建立AI伦理守则及相关框架,较少关注怎样将这些守则转化为AI领域的技术操作。据不完全统计,全球关于人工智能守则的文件超过百份。将伦理守则付诸操作才能产生现实的价格。当前,各界已在寻觅将伦理守则翻译为操作的机制、行为、工具等,让人工智能守则操作化、落地化,真正融入、嵌入人工智能研发流程和业务应用。这些机制包括伦理审查委员会、伦理标准和认证、关于算法透明和伦理检查的最佳操作行为、技术工具等等,大都处于前期的摸索阶段。但这些操作具有一定的局限性,受限于成本、效率等影响,难以对AI领域产生规模化影响。借鉴互联网领域中的SaaS概念,以伦理工具方法展现的伦理即服务(ethics as a service)这一最新的理念开始得到重视,推动AI伦理产业化进步,让可信AI的普惠化成为也许。
500)this.width=500">
500)this.width=500">
图1:国外科技企业成立的科技伦理相关组织
以伦理即服务的方法消除伦理
标准和技术操作之间的隔阂
在此背景下,AI伦理行业继续方兴未艾,AI研发者和运用者对伦理领域的重视程度也愈发浓厚,一种新生的操作学说呼之欲出:伦理即服务(Ethics as Service)。2024年初,Jessica Morley等国外学者在论文“Ethics as a Service: a pragmatic operationalisation of AI Ethics”中提出了“伦理即服务”这一概念。简言之,“伦理即服务”旨在运用科技工具或其他方法将抽象的伦理守则转译为具体的服务措施,以数字化服务工具的方法将伦理标准嵌入AI产品和服务的全生活周期,从而推动AI伦理的操作和落地。
虽然该理念的愿景特别美妙,希望切实推动AI伦理的操作和落地,但距离真正实现将科技伦理嵌入技术服务还存在一些不足。其中,伦理标准的抽象性、不确定性以及多样性,是制约将伦理转化为服务工具的首要影响。在众多关于伦理框架的文件的描述中,这些伦理守则涉足领域广泛,其标准涵盖了透明、公正、职责、隐私、信赖、安全等内容。但在操作中,这些标准也许会随着不同民族的文化、风俗、习性而不相一致,也导致AI伦理从概念转化为操作存在着较大的学说难题,需要通过民族立法和行业标准的“软硬治理”,消除由概念带来的模糊性和不可执行性,在抽象守则和技术工具之间建立起沟通桥梁。
同时,作者在论文中认为,除了伦理定义上的模糊,在实现AI伦理和技术耦合经过中,还存在着一些技术限制:
首先,伦理转译的工具和方式大多不具有强检验性(extra-empirical)。其主要体现在伦理标准的选择上,AI操作者会倾给于选择和自身价格观和领会认识相一致的伦理工具,而不是和社会的主流偏好相一致的伦理工具,这意味着开发者可以自主制定算法操作的评估标准,但自身却不受社会普世价格的约束,导致这些转译工具也许面临人为操纵的风险。
其次,许多既存的转译工具和方式都属于解析和判断型(diagnostic),而非规范和确定型(prescriptive),使得大部分的伦理工具欠缺实效性。例如,在算法偏见的场景中,伦理工具虽然能够提示是否存在偏见难题,但却无法提供化解偏见的途径。
最后,伦理转译工具通常会被开发者用于完成某些程序的一次性测试(one-off test),只能在体系设计之初对其合乎伦理智进行检测,而无法在之后对其进行贯穿生活周期的重复审查。
因此,作者认为,有必要定期检查算法体系的伦理影响,至少经过三个阶段的检验程序:确认、验证、评估。确认程序旨在检验算法体系的性能是否良好;验证程序旨在检验算法体系是否遵循了正确的开发流程;评估程序旨在检验算法体系在部署期间是否能保持正确的运行情形(Floridi, 2024)。有学者(Arnold & Scheutz, 2024)认为,除非伦理评估成为算法体系的必要选项,否则难以使伦理转译工具(pro-ethical translational tools)对AI体系的伦理影响(ethical implication)产生积极影响。
除了这些之后,上述对伦理工具的批判也引发了大众对伦理工具的质疑,认为伦理难以甚至不也许嵌入算法的设计、更新、部署以及运用等算法流程。然而,诸如医疗伦理、搜索伦理等算法应用领域的经验表明,将伦理守则付诸AI操作并非不切实际,而且有利于保护个人、团体、社会以及环境免受算法伤害,激励AI产出最优的算法结局。
作者在文中认为,“伦理即服务”是可实现、可操作的,但在研发思路上要满足下面内容两种标准:一是在抽象的伦理概念和具象的技术措施中达成妥协,也即,伦理守则不必过于抽象,也不必过于具体,伦理转译工具不能过于严格,也不能过于宽松;二是摒弃一次性、一揽子测试的伦理审查机制。
AI伦理服务是一项长期性、持续性的活动主题,不应以暂时性的审查结局为目标。同时,AI的开发机制应当是可回溯、可反思的(reflective),由于这种开发理念能够助益AI从业人员(practitioner)领会自身在特定环境下的主观目的(subjectivity)以及潜在偏见,从而揭示有悖于伦理的算法结局为何出现,也有利于对此类结局制定合适的化解方法。上述思路对于伦理服务工具的设计、开发以及应用而言,也极具启发意义。
AI伦理服务产业方兴未艾,
为AI产业补上缺失的一环,
助力可信AI进步
开发伦理工具是提供伦理服务的基础,也是让抽象的伦理守则操作化的重要方法。为此,在国内,谷歌、微软、IBM等头部科技企业开始积极研发伦理工具,越来越多的初创企业也开始投身于AI伦理市场,AI伦理开始了由框架到工具、由工具到服务的产业化道路。谷歌、微软、IBM等科技企业不仅主动研发伦理工具,而且通过将伦理工具开源化,或者在云服务上集成化来促进行业践行AI伦理。
例如,在算法模型安全领域,微软企业公开了一项名为Counterfit的对抗性技术开源化项目,旨在帮助开发人员测试AI体系和机器进修的安全性难题,在不同环境中针对合作伙伴机器进修模型展开测试,继而为AI企业的算法安全提供合适的风险评估工具,以确保AI业务的稳健性、安全性以及可靠性。
IBM企业依托其Watson OpenScale平台,通过IBM云和IBM云私人服务提供伦理服务,帮助企业在达到充分透明度、实现可解释性和公正性的情况下大规模运行和操作自动化AI体系,确保在AI模型在设计、研发、部署期间始终保持公正性、可解释性以及合规性,而且可以检测和纠正人工智能模型在生产中的数据漂移难题,以便对其进行故障诊断,从而提高模型性能。
谷歌企业则在谷歌云上规划AI伦理服务化的规划,以帮助其客户发现和修复其人工智能体系中的道德难题,相关服务也许包括检测算法歧视、制定AI项目的伦理指导、对客户的AI体系进行审计等等。
500)this.width=500">
500)this.width=500">
图二:国外科技企业开发的伦理工具及服务
在现阶段,除了头部科技企业开发AI伦理工具、提供相关AI伦理服务外,国外AI产业开始出现以专门提供伦理服务为主要业务的初创企业。该类初创企业并不关注于人工智能技术研发,而是为了帮助从事AI技术研发应用的AI企业应对其AI体系中的潜在伦理难题。AI伦理创业企业的出现,可以弥补AI产业化中缺失的伦理一环,助力可信、负职责AI的进步。类似于Parity AI、Fiddler、Arthur等小有名气的初创企业纷纷专注于不同伦理领域的技术支持和服务,旨在为其他科技企业提供更具专业和效益的伦理服务。AI伦理服务不仅可以帮助AI企业建立负职责的人工智能体系,还可以为该类企业现有的人工智能业务提供道德指导,从而促进整个AI产业更好思索、应对伦理难题,确保科技给善。
AI伦理创业市场的兴起并非毫无逻辑,其缘故主要在于:
第一,科技企业在日常的AI技术研发上已经投入或占用了企业研发人员大量的时刻和精力,在技术研发之外再标准其关注AI伦理难题则会导致分身乏术,并非全部AI企业或团队都愿意投入时刻研发AI伦理工具。
第二,人工智能技术本身的研发成本始终高昂,并非全部AI研发企业都能够有充足的资金协调人工智能技术自身的研发成本以及嵌入AI伦理的成本,在技术研发以外再在AI伦理上进行额外的投入将会对技术研发造成一定负面影响。头部企业具有雄厚的研发资金以支持其伦理工具的研发,但对于其他的中小微企业而言,如果苛求其成立专门的审查机构、投入大量的研发成本,也许会成为压死骆驼的最后一根稻草,得不偿失,既不现实,也无必要。
第三,AI伦理难题的专业性极高,对从事和AI伦理相关范畴职业的专家标准极高,技术研发人员并不能直接转化为AI伦理研究人员,技术人员在没有AI伦理研究人员指导下所开发的伦理工具也将具有局限性。为了破解AI产业中AI伦理的供需不对称,AI产业中开始出现专门提供AI伦理服务的第三方企业,该类企业专门研发帮助落实AI伦理守则的技术服务,供缺少AI伦理相关内置产品的人工智能技术企业运用。AI伦理产业化进步需要积聚众多科技企业的聪明和力量,鼓励、引导AI伦理服务企业的创造和进步,是推动AI伦理落地的长久之策。
AI伦理创业企业
抢占细分领域赛道,
伦理服务趋给精细化和专业化
目前,细分不同伦理领域,提供专业精细服务,是国外AI伦理企业迅速抢占市场,树立品牌特色的主流行为。提供伦理服务的初创企业并非提供一揽子面面俱到的服务内容,而是根据细分的伦理标准提供专业度高的精细化服务。现阶段,各类初创企业主要关注于如实现可解释性标准、实现公正性标准、风险管理、伦理审计等服务内容。根据伦理服务的不同领域,可以将目前提供伦理服务的初创企业划分为下面内容几类:
第一,立足决策稳健,提供风险评估服务。Parity AI企业为AI企业提供开发、监测和修复其人工智能模型的工具方式,主要聚焦于缓解偏见、实现公正、可解释性以及伦理审计。在审计方面,Parity AI创建了一套能够缩减伦理审计时刻的工具,该工具的运行玩法为,根据客户需求确定人工智能模型审计的内容,进而提供相关提议,而且Parity AI帮助AI企业组织审计的全经过。审计经过中,首先协助AI企业进行内部影响评估,在AI企业内部针对人工智能业务进行放开式调查,在这经过中可以采用由Parity AI企业所建立的提议难题库,其中包含超过一千个来自全球各地区AI伦理准则或相关立法的提示词汇及相关难题;在放开调查的基础上,Parity AI会提出相关伦理风险缓解的主推和提议。在此经过中,Parity AI能够帮助专门的技术人员更好地领会AI伦理的守则和标准。
第二,立足决策透明,提供可解释性服务。2024年成立的Fiddler企业致力于实现AI可解释的目标,为化解模型可解释性、模型监控以及模型偏差检测等难题,开发出一套机器进修模型性能管理工具(ML Model Performance Management,MPM)。该工具的影响在于能够有效降低算法模型的黑箱性风险,并实时对模型的参数进行持续监控,帮助AI开发者验证模型、解释模型性能以及记录模型指标。同时,由于机器进修模型的预测质量也许会随着时刻的推移而下降,当用于算法运作的数据和实际运用的数据不相一致时,就会产生模型漂移(model drift)的难题。基于此,MPM工具还能帮助数据科学团队跟踪人工智能模型不断变化的性能,并根据结局为业务主管创建顶级别报告,如果该模型的准确性随着时刻的推移而恶化,或者显示出偏见倾给性,Fiddler亦可帮助该人工智能体系调试及发现也许的缘故。
500)this.width=500">
图三:MPM工具的运作机制
在定位上,MPM工具并不会替代现有的机器进修训练、部署以及服务体系,而是在机器进修流程中扮演守夜人的人物,旨在对模型运作的全程进行监控和解释说明。具体而言,MPM具有两方面的影响:一是偏离度监测(Detect Train/Serving Skew)。当机器进修的数据发生偏离时,训练模型会出现异常并需要纠正,MPM工具能够将训练数据和预测日志保存在同壹个地方,使得开发者可以及时发现偏离。二是时刻回溯(Time Travel)。MPM工具能够为用户提供程序倒查的功能。Fiddler官方为此举了壹个形象的例子,当银行运用机器进修算法来驳回客户的特定贷款申请,而招致客户的投诉和抱怨时,运用者就可以登录MPM体系,就其保存的数据为客户还原模型的预测和决策经过,从而达到AI可解释的效果。
Arthur企业和Weights & Biases企业同样强调可解释性和缓解偏见、实现公正性。Arthur企业努力化解人工智能体系中的黑盒难题,而且承认化解人工智能可解释性难题有较高难度,目前并未形成最优化解方法。Weights & Biases企业旨在帮助机器进修工程师解析其网络的潜在难题,日本丰田企业已经在运用Weights & Biases企业所创建的工具来监测其企业内机器进修设备的训练情况。
第三,立足决策公正,提供算法修复服务。针对AI决策层出不穷的算法歧视难题,埃森哲企业致力于开发出一款能够快速评估数据是否创新公正结局的伦理工具(fairness tool)。该工具运用一种能够定义公正性的统计算法来识别大众是否受到了算法的不公正对待,同时还会挖掘、解析、定义公正性相关的敏感变量。例如,算法在做决策时通常不会思考性别难题,但如果加入收入影响的考量,就会容易在男女性别间产生不同的决策结局。该工具会将此类相关信息纳入公正性的评估范畴,同时还要关注每个决策变量的错误率,通过相对不同变量之间的错误率,解析出影响决策公正性的变量影响。同时,此前的研究表明,AI伦理对于公正性的界定存在多达21种类型的解释方式,因此,很难对不同场景下的公正性作出统一定义。虽然埃森哲的伦理工具能够减少影响公正性评估的错误影响,但思考到修复程序也许会降低算法评估的准确性,因此该工具将是否调整参数的决定权交还给用户,也即只提供修复结局的权衡选择(trade-off),但最终交由用户来决定错误影响的调整范围。
虽然目前AI仍无法做到对算法公正进行精确定义,但埃森哲负职责AI的前团队负责人、现任Twitter企业机器进修伦理团队负责人的乔杜里表示,该公正性工具能够用于化解某些实际难题。2024年,埃森哲和爱尔兰联合银行(AIB)达成合作,正式将算法公正工具应用于传统银行业。AIB希望借助该工具减少算法模型的偏离度和歧视性,增进银行AI业务的公正性和可信赖度。在应用途径上,二者采用传统业务和算法决策相配合的协作机制,共同评估银行算法模型的公正性,包括将该工具用于检测、评估银行业务中的潜在风险以及预期效果,最终取得了显著成效。操作证明,算法公正工具能够基于公正的维度帮助AIB更深入地领会其数据模型结局,也使得AIB的大数据科学团队可以借助公正性解析减少算法偏见和决策风险,从而增强银行运用AI的信心和能力。
科技伦理治理需要多管齐下,
以“伦理嵌入设计”的理念和操作
实现技术和伦理之间的有效互动
《关于加强科技伦理治理的指导意见(征求意见稿)》提出了“伦理先行,敏捷治理”的基本标准。伦理怎样先行?需要伦理委员会、技术工具、伦理培训等多管齐下,也需要创造治理方法。在这方面,大家可以借鉴互联网领域的壹个成熟概念:隐私嵌入设计(privacy by design,PbD)。PbD已具有很好的操作基础,可以为人工智能的伦理治理提供有益经验。在PbD理念和操作的基础上,人工智能产业需要拥抱“伦理嵌入设计”(ethics by design,EbD)这一最新的理念,并推动这一理念在人工智能操作中的落地。各界可以一起寻觅“伦理嵌入设计”的最佳操作行为、行业标准、技术指导等。
而近年来伦理工具和AI伦理即服务的勃兴丰盛了“伦理嵌入设计”的理念和操作途径,在某种程度上,这也是产业界开始推动负职责创造,以技术的方法化解技术带来的难题。如前所述,随着提供AI伦理服务的初创企业不断涌现,AI产业中的伦理供需失衡促使AI伦理服务企业开始走给成熟化、精细化、规模化,该类服务企业能够在细分领域中提供适应AI产业变化的伦理服务,加速AI伦理由守则到框架再到操作的进程,帮助AI伦理在更多运用场景和产业范围内顺利落地,弥补AI产业中缺失的伦理一环。同时,从长远来看,伦理服务已成为未来AI产业的应有之义,虽然AI伦理服务有着广阔的进步前景,但目前仍处于起步和寻觅阶段,需要各界一起凝聚更多共识和实现机制、玩法等。
最后,在人工智能、区块链、虚拟现实、metaverse等新兴技术和玩法加速演进变革的今天,科技伦理固然显得愈发重要,但一方面需要注意不要把科技伦理当作一种华而不实的雕饰和粉饰,而需要通过真正有效的机制让科技伦理对科技创造形成正给引导;另一方面科技创造本就是一种不确定性的寻觅,无法免疫全部的风险,因此也需要立法和伦理规范的精细平衡,平衡好安全和创造进步。
作者
曹建峰 企鹅研究院顶级研究员
胡锦浩 企鹅研究院助理研究员
(转载)