1 引 言
近年来,由于人工智能(尤其是深度学习)等前沿技术的蓬勃发展,可解释人工智能研究领域受到了广泛的关注。可解释人工智能是使人工智能技术或系统的决策能够被人类用户所理解的一组方法或工具,旨在确保人工智能系统的推理和决策可被理解和信任。本综述首先介绍可解释人工智能技术的基本内涵,然后概述可解释人工智能技术在2023年的主要进展,随后探讨可解释人工智能技术的未来发展趋势,旨在为该技术领域的发展方向布局与应用等提供参考。2 可解释人工智能技术基本内涵概述
2.1 概念内涵
以深度学习为核心的人工智能技术,近年来凭借“算力+算法+数据”三维核心要素的持续强化,已经在自然语言处理、计算机视觉等研究领域接近甚至达到人类水平并不断付诸于实战应用,但是不可忽视的是,人工智能技术目前存在两方面突出问题:一是深度学习模型“黑盒”属性过强,开发者和使用者均无法窥见模型内部的运行逻辑和决策过程、难以分辨人工智能模型某个具体行动背后的逻辑,陷入“知其然、不知其所以然”的窘境;二是使用者无法充分信任人工智能所产生的决策结论,特别是在国防军事、医疗卫健、金融投资等高风险应用领域,未经人类认可的决策结论如果付诸于应用会带来不可控甚至影响严重的后果,阻碍“人机互信”的可信人工智能的实现。为提升人工智能技术的可解释性,增强人类对人工智能技术的理解与信任——“可解释人工智能”研究应运而生,并迅速成为研究热点。“解释(Explanation)”通常以一种人类可理解的方式将实例的特征值与其模型的预测值联系起来——即“知其然、亦知其所以然”,例如,人工智能模型在进行目标识别时识别出某一型号的装备,需要同时提供依据来解释“是基于哪些特征来判断此目标是这一型号装备、而不是其他型号”。根据目前学术界对于可解释性的不同视角的理解,将“可解释人工智能”定义为:针对特定人类用户,可解释人工智能,是指可以提供细节和原因以使人工智能模型运转能够被简单、清晰地理解的技术,泛指所有能够帮助用户理解人工智能模型行为的技术。因此,可解释人工智能是“以人为核心”的,其所提供的解释是面向人类的、而且是分级分类的。其他目前业界比较认可的针对“可解释人工智能”的定义包括如下:来自西班牙、法国的8家科研机构联合发布的《可解释人工智能:负责任人工智能的概念、分类、机遇和挑战》将可解释人工智能定义为针对特定的听众用户,可以提供细节和原因以使模型运转能够被简单、清晰地理解的技术;美国麻省理工学院在2023年最新综述中将可解释人工智能定义为:可以用人类能够理解的术语描述系统行为的任何过程;美国谷歌公司发布的《可解释人工智能白皮书》,认为人工智能方法的准确性和可解释性之间存在着一种相反的关系,两者之间的负相关关系如下:解释性越大、准确性越低,反之亦然。2.2 实现途径
发展可解释人工智能技术,通常需要遵循如下指导性原则:解释原则(人工智能系统要对其所产生的结果、结论提供证据或理由)、意义原则(人工智能系统要提供能被指战员用户所理解的解释)、解释精确性原则(解释要精准地反映人工智能系统产生决策结论的过程)、知识限度原则(人工智能系统只在它所设计的条件下或者系统对其输出有足够信心时才运行)。可解释人工智能的主要实现途径可分为4个方向:一是视觉解释,是直观探测人工智能模型内部结构的解释方法,如通过可视化手段显示神经网络中神经元功能和权重强度,进而解释模型内部结构分工、运行规律和工作原理。二是扰动解释,是通过外部施加扰动来探索人工智能模型工作机理的解释方法,如对输入数据进行微调,比较微调前后模型输出结果的变化,从而解释数据对模型决策过程的影响。三是知识解释,是利用知识图谱等符号化辅助工具对人工智能模型决策过程及结果进行解释的方法,如在知识图谱上绘制决策结论与决策原因之间的因果路径来解释模型决策流程。四是自身解释,是研发全新的可解释人工智能模型及模仿者模型的方法,如使用具备可解释性的传统模型来“模仿”和“还原”人工智能模型,进而通过类比手段来解释人工智能模型的运行机理。上述4个途径既可以独立应用,也可以通过组合应用。2.3 意义
可解释人工智能持续引发国际范围的国防、科技领域高度关注。2023年2月,作为旨在审查负责任的人工智能技术在国防领域应用情况的“迈向负责任的国防人工智能”项目的第一阶段成果,联合国裁军研究所发布《迈向负责任的国防人工智能:绘制和比较各国采用的人工智能原则》报告,制定了人工智能原则通用分类体系,对各国采用的人工智能原则进行比较分析,认定公平性、可解释性、包容性等是当前最被明确采用的人工智能原则,预计未来几年会有更多的国家采用指导原则、道德风险评估框架、行为准则规范等方法规划人工智能发展。此外,对人工智能技术可解释性监管的立法进程在不断加速,技术发展与监管规制正在并轨。例如,2023年6月,欧洲议会通过《人工智能法案(草案)》,成为全世界首部通过议会程序、专门针对人工智能(特别是生成式人工智能)的综合性立法,这些规则将确保在欧洲开发和使用的人工智能完全符合欧盟的权利和价值观,包括人类监督、安全、隐私、透明度(可解释性和可追溯性)、非歧视以及社会和环境福祉等。3 可解释人工智能技术最新进展分析
本综述对可解释人工智能技术在2023年的最新成果进行总结和凝练,梳理出如下该技术领域的主要最新进展:从针对传统人工智能模型的可解释性方面,持续深化对传统的“黑盒性”人工智能模型在基础理论层面的解释研究,无监督学习框架的可解释性研究成为当前热点;从针对新兴人工智能模型的可解释性方面,针对当下热门的以大模型驱动的生成式人工智能模型的解释研究已经成为当前可解释性领域的热点研究方向;在人工智能开源潮趋缓的当下,可解释人工智能工具的开源热度不减,足见其在当前学界和业界的重要地位。3.1 可解释人工智能与生成式人工智能已产生良性联动,针对基础大模型的可解释性研究取得多项突破
随着以ChatGPT为代表的生成式人工智能技术的快速发展与深入应用,基础大模型的自身可解释性和应用可解释性研究得到越来越多的关注。12月,中国信息通信研究院发布《人工智能伦理治理研究报告(2023年)》白皮书,认为生成式人工智能技术的发展应用引发了偏见歧视、隐私侵犯、责任不明、虚假内容传播等伦理挑战,亟待强化生成式人工智能技术点的可解释性和可信任性。中国电子技术标准化研究院等联合发布《生成式人工智能治理与实践白皮书》,明确提出:在人工智能模型能力满足业务需求的前提下,服务提供者可以选用具有良好资质和声誉的技术支持者提供的模型,模型应尽可能满足鲁棒性、可解释性、可追溯性等指标要求。在基础大模型自身的可解释性方面:2023年3月,美国斯坦福大学提出利用结构化的知识图谱来强化基础大模型的可解释性、鲁棒性、自适应性自然语言表示,在非结构化和结构化数据互补知识的激励下,成功突破了非结构化数据(用于基础大模型训练)中存在的知识限制以及可解释性限制。2023年5月,美国OpenAI公司发布使用基础大模型来解释基础大模型中神经元的最新工作,使用GPT-4、依托自然语言解释范式来解释GPT-2(以及其他较GPT-4结构更简单的基础大模型)的全部30万个神经元的行为(如图1所示),并首次证实规模越大的基础大模型所产生的解释与人类产生的解释的一致性越高(虽然依然低于人类解释水平),如图2所示,同时首次实现“人工智能来破解人工智能的可解释性”,被认为是基础大模型乃至深度学习向可解释性迈进的重要一步。在基础大模型应用的可解释性方面:2023年6月,美国亚马逊公司发布基础大模型驱动的金融领域时间序列预测模型,着重利用思维链等方式让基础大模型生成所预测答案的原因,实现可解释性时序预测。图1 使用GPT-4解释GPT-2某神经元行为的示例Fig.1 Explain the GPT-2’s neuron’s activations using GPT-4
图2 大模型规模越大,与人类解释的一致性越高Fig.2 The larger the scale of a large language model, the higher the agreement with humans
3.2 在可解释性基础理论层面的传统人工智能黑盒模型“透明化”研究持续深入
人工智能算法是否公平、可信,取决于多元复杂因素的综合衡量,尤其是在国防军事等重点领域本身难以实现人工智能算法归零的前提下,面向传统人工智能模型底层运行模式与内在逻辑的“透明化”,一直以来是可解释人工智能研究所关注的焦点。2023年2月,美国麻省理工学院发布关于黑盒模型的可解释性和透明性技术的最新成果,首次观测到各种可解释性概念的定义及评估之间存在一种新颖的对偶性,并认为正确性(产生解释是否反映了模型内部的决策逻辑)、可理解性(人类用户是否能够准确地从这些解释中推断出更高层次和更普遍的模型行为)是人工智能技术及系统产生良好解释的必要属性。当前针对传统人工智能模型的解释研究,侧重于关注多视角融合的可解释性技术以产生更加准确的解释,例如,同年1月德国柏林自由大学在高阶可解释性模型方面取得突破,首次提出能够提供高阶解释的改进版分层相关性传播可解释模型,实现能够识别出共同促进模型决策的特征集合(即高阶解释),以及将原始解释自动分解为多个分离的组件进而共同解释整体预测;9月,德国Fraunhofer Heinrich Hertz研究所提出概念相关性传播理论,融合局部解释视角(以归因图的形式解释个体预测)和全局解释视角(将模型通常学会编码的概念可视化)以形成互补,进而能够提供更多人类易接受的解释和更加深入地了解人工智能模型的推理过程,相关成果发表在《自然·机器智能(Nature Machine Intelligence)》期刊。此外,在过去数年迅猛发展的无监督表征学习已在数据驱动的机器学习中提供强大的可扩展性,但是依然无法解释什么是学习到的表征、究竟如何以无监督的方式形成表征、什么是支撑所有这些无监督表征的共同点等问题,为此,2023年5月,“图灵奖得主”Yann LeCun领衔的美国META公司、美国纽约大学等联合团队在深度学习顶级国际会议ICLR 2023上发布一种极简且可解释的非监督式学习方法,该方法将稀疏编码、流形学习和慢特征分析相结合,突破性在无需求助于数据增强、超参数调整或其他工程设计的情况下,即可实现接近当前最优的非监督式学习方法的性能,该理论可以为加速理解人脑中无监督学习的原则提供指导;2023年11月,美国加州大学洛杉矶分校联合团队提出首个“白盒”Transformer架构CRATE,通过将数据从高维度分布压缩到低维结构分布、实现有效的表征,兼具Transformer架构的结构和功能性优势的同时又有极好的可解释性,同时证明了数据压缩对于深度学习的重要意义。该架构的一个显著的特性是每个注意力头均带有明确可解释性(如图3所示),这意味着CRATE的任何分类结果都能进行事后的解释。以动物识别为例,支持将注意力头在多类型图中的几种动物上的输出进行可视化,结果显示注意力头对应于动物的不同部分,而且这种对应关系在不同动物的图片以及不同类别的动物图片中都是一致的。图3 首个“白盒”Transformer架构CRATE的每个注意力头均具备明确的可解释性Fig.3 Each attention head of the first white-box Transformer architecture CRATE has clear interpretability
3.3 可解释人工智能开源工具不断丰富
可解释人工智能技术发展至今,吸引了国内外众多高校和科技巨头的青睐,相关的开源工具也是呈现百花齐放的态势,典型工具包括美国微软公司的interpret系统(内嵌微软自研的可解释性EBM模型)、美国IBM公司的aix360系统(提供体系化的可解释人工智能技术分类体系)、美国META公司的captum系统(支持Torch深度学习框架的可解释解析)等。2023年可解释人工智能开源社区的典型成果包括:1月,美国DeepMind公司和苏黎世联邦理工学院联合推出全新可解释性模型构造工具及实验平台Tracr系统,首次实现直接由人类用户来根据“已知的机制”、针对不同任务来编写代码,然后由Tracr系统编译形成模型的权重,从而通过将人类可读的代码“编译”成神经网络的权重的方式有效解决缺乏基础机理解释的问题,促进模型的解释变得更轻松;2月,开源领域领军企业美国KitWare公司在人工智能顶级会议AAAI 2023上发布面向计算机视觉领域人工智能解释的开源工具Xaitk-Saliency,通过重点可视化对象检测模型比较和用于人员重识别的双重显著性等两类显著性图,实现表示人工智能算法在决策过程所关注的输入特征。4 可解释人工智能技术发展趋势分析
推动可解释人工智能技术愈发火热的重要标志性事件,则当属深度学习的第三次崛起和爆发——神经网络的“黑盒”特性倒逼可解释人工智能技术的迅猛发展,可解释人工智能技术重点致力于打开这些“黑盒模型”,理解模型的构建过程与推理机制,实现模型“透明化”。基于对可解释人工智能2023年最新进展的盘点,本综述认为:突破宏观工作机理层面、微观神经元行为层面的可解释性瓶颈,以及构建兼具内在常识与外在环境交互能力的“心智系统”、探索融合符号主义和联结主义的最佳解释推理路径,正在成为未来可解释人工智能技术的重要发展趋势。4.1 突破基于逆向工程和反向人工智能的模型工作机理可解释性技术瓶颈
可解释性是理解机器学习、深度学习模型的重要因素,而工作机理可解释性是可解释人工智能的重要实现途径,旨在对模型实现的算法给出机理上的合理解释,目前已经在一系列任务中取得进展,包括用于图像分类的卷积神经网络、Transformer语言模型等。但该类研究方向仍然存在相关工具少、解释层次浅、仍需要研究人员进行辅助解释等问题,亟待从训练数据逆向还原、模型结构反向推演、模型缺陷分析等角度,依托逆向工程等反向人工智能先进手段来提高人工智能模型工作机理可解释性。此外,当前评估模型机理解释的标准方法需要结合大量临时实验的证据,如何降低评估成本、如何在真实场景下对真实模型开展大规模评估,也是未来可解释人工智能的重要发展方向。4.2 提高对巨体量基础大模型中神经元行为的解释能力
在生成式人工智能领域,无论是面向语言还是面向多模态的基础大模型,不仅在性能上代表了当前人工智能最先进水平,而且在体量(神经网络层数以及神经元参数数量)上也代表了当前最高水准,但是同样也面临“黑盒”式的难解释困境。当前可解释人工智能研究对于传统模型(体量较小)的可解释研究已积累颇深,对当前主流基础大模型(体量较大)的解释研究刚刚起步,目前虽然已经在GPT-2模型上取得很好的解释效果,但是当模型体量进一步扩大时(GPT-2的体量相较于当下主流基础模型的体量小很多),解释效果会变得不佳(尤其是存在“越往后的层越难解释”等现象)。有机融合迭代解释、使用更大的基础大模型作为解释模型、适度更改被解释模型的体系结构等多元方法,将是打破基础大模型的“黑盒”局限的重要技术途径。4.3 构建具有充足人类常识和背景知识、有能力深刻理解周边现实世界的可解释性类人“心智系统”
实现人机交互可解释人工智能的根本出路在于积极探索人类秉持的逻辑结构,理解人类认知、推理和决策的一般机理。受过深度学习训练的人工智能系统会将一辆车身上印着大幅广告的行驶中的巴士识别为冰箱,但一个未成年的正常人类儿童则能够将其正确地判定为巴士——这一案例充分体现了常识、背景知识、对周围现实环境的实际感知和理解在人类认知和决策行为中的重要作用。此外,出于不同动机或解决不同问题的非通用人工智能系统需要具备的常识和背景知识、对世界的理解和洞察力可能不尽相同,但它们必须具备与其目的和任务匹配的相应知识和能力。4.4 充分融合符号推理技术和深度学习技术以探寻最佳解释推理路径
人工智能领域持续近70年的争论是人工智能系统应该基于符号推理还是人脑神经网络系统,目前在主导地位的是数据驱动的神经网络深度学习技术。实际上这两个路径并不矛盾,理论上来说可以将这两者融合,如何融合符号推理与深度学习这两个路径被称为人工智能领域的“圣杯”问题。两者融合的一个恰当模式是构建“最佳解释推理+深度学习”的双层人工智能系统。其中,最佳解释是指对数据之间的规律性联系作最简单、最符合直觉的解释,旨在把握数据及模型参数在某些方面的规律性(重点是参数之间的因果关系),并利用这些规律进行因果推理,做出判断、决策、预测等。因此,最佳解释推理可以看作“发现因果关系-进行因果解释-做出因果预测”的统一推理范式,需要用到人的背景知识和常识,同时通过这一推理模式获得的知识又可以作为深度学习的数据。5 结束语
当下人工智能研究和发展所重点关注的可信赖性问题、鲁棒性问题,都与人工智能的可解释性密切相关,可以认为:可解释性问题是解决鲁棒性问题,从而解决可信赖性问题的前提和基础。因此,人工智能的可解释性问题已经成为目前人工智能领域的核心关键。本综述在汇总和凝练可解释人工智能技术在2023年主要进展的基础上,认为该技术在未来一段时期,将会呈现出突破宏观工作机理层面与微观神经元行为层面的可解释性瓶颈、构建兼具内在常识与外在环境交互能力的“心智系统”、探索融合符号主义和联结主义的最佳解释推理路径等发展趋势,旨在为可解释人工智能技术领域的发展方向布局与应用等提供参考。