乳腺癌诊断可解释人工智能模型解读
时间:2025-08-29 12:13:36 热度:37.1℃ 作者:网络
摘 要
病理诊断是确诊乳腺癌的金标准,传统的乳腺癌人工病理诊断方法费时费力,主观性强,诊断一致性欠佳。近年来,人工智能(artificial intelligence,AI)技术迅猛发展,其作为一种有前途的早期诊断工具,逐步应用于临床,但现有AI模型多缺乏可解释性,限制了临床应用的可信任度。Khater 等通过结合高精度机器学习模型与可解释AI模型,实现了乳腺肿瘤的高精准诊断,并对影响诊断结果的关键生物学病理特征进行解释,为未来AI在医学诊疗中的应用和发展指明了方向。本文对该研究的主要内容进行解读,分析AI在医学诊疗中的优势和局限性,以期其能更好地应用于临床。
正 文
乳腺癌是全球范围内女性最常见的恶性肿瘤,每年新发病例约230万,占所有新发癌症病例的11.7%,是全球女性癌症死亡的主要原因[1]。2022年,我国女性乳腺癌新发病例约35.72万例,死亡约7.5万例,分别占癌症新发病例和死亡病例总数的15.59%和7.94%[2]。早发现、早诊断、早治疗仍然是提高乳腺癌治疗疗效、降低病死率最主要的手段[3]。早期乳腺癌的5年生存率超过90%,而晚期转移性乳腺癌的生存率骤降至不足40%[4]。病理诊断是确诊乳腺癌的金标准,但传统人工病理诊断存在以下局限性:① 主观性强:病理诊断结果高度依赖病理医师的经验和主观判断,不同医生对同一患者的诊断一致性欠佳,甚至同一医生在不同时间对同一病例的评分可能存在偏差[5]。② 时间及人力成本高:人工病理诊断流程复杂,分析耗时较长,效率相对较低。③ 长时间显微镜下观察易导致视觉疲劳、注意力下降、对高维特征量化力下降,从而漏诊细微病变。④ 资源分配不均匀:高水平病理医师稀缺,尤其在偏远山区更是如此,一定程度上可能延误患者诊断,影响治疗效果。研究[6]显示,约20%的乳腺癌在首诊时为非远处转移性局部晚期乳腺癌,这与筛查覆盖率低及诊断延误密切相关。
人工智能(artificial intelligence,AI)技术,尤其是机器学习(machine learning,ML),已在医疗影像分析、病理学辅助诊断和预后预测中展现出巨大潜力。例如,深度学习算法通过卷积神经网络可自动识别乳腺X线图像中的微钙化、结构扭曲等早期征象,诊断准确率高达95%以上[7]。2020年Nature发表的研究[8]结果表明,AI模型在乳腺癌筛查中的敏感度达94.5%,特异度91.3%,显著优于放射科医师平均水平(敏感度88.2%,特异度81.3%)。同时,多项研究[9-11]结果表明,AI模型能显著提高乳腺癌病理诊断的准确性及诊断效率。然而,传统AI模型缺乏透明度和可解释性,其决策过程难以被人类理解和解释,这使医生和患者对其诊断结果的信任度受到一定影响。在临床中,诊断结果的可解释性至关重要,因为医生需要根据诊断结果制定治疗方案,而患者也需要了解自己的病情和诊疗依据,因此开发可解释人工智能(explainable artificial intelligence,XAI)模型至关重要。Khater 等[12]2023年在IEEE Access期刊发表的文章(2025年1月进行更新),介绍了一种基于XAI的乳腺癌诊断模型,通过整合高精度ML算法与多种模型无关的XAI算法,在威斯康星乳腺癌数据集(Wisconsin breast cancer dataset,WBC)和威斯康星乳腺癌诊断数据集(Wisconsin diagnostic breast cancer dataset,WDBC)上分别实现了97.7%和98.6%的诊断准确率,并发现“裸核”和“最差面积”是判断肿瘤良恶性的关键特征,其诊断模型将传统病理学的经验判断转化为可量化、可解释的智能辅助系统,为未来AI在医学诊疗中的应用和发展指明了方向。本文对其研究的主要内容进行解读。
1 主要研究内容介绍
WBC和WDBC均是以乳腺癌患者肿瘤的病理组织特征为基础的数据集。WBC于1992年由威斯康星大学医院的William H. Wolberg博士首次引入,包含699个乳腺肿瘤细针穿刺活检样本信息,每个样本包含10个相关特征,其中前9个特征描述了肿瘤细胞的各种特性,例如裸核数量、核分裂数、核膜完整性和核大小均一性等。最后一个特征是一个二元标签,用于指示肿瘤的性质,即恶性或良性。每个特征的评估使用1~10的评分标准,其中1分表示更接近良性特征,10分表示更接近恶性特征[13]。WDBC同样由威斯康星大学医院的William H. Wolberg博士在1990年代初收集,是对WBC的补充和升级,通过对569个乳腺肿瘤组织切片进行数字化成像,并采用图像分析软件自动测量细胞核的几何与纹理特征,每张图像分析多个细胞核,最终取统计值作为统计特征。每个样本的观察值包含30个属性,其中第一个属性是唯一的ID号,用于标识每个样本。第二个属性是乳腺肿瘤良恶性的诊断,其他28个属性描述肿瘤的不同特征,如细胞核大小、形状和纹理[14]。这两个数据集均是ML和健康应用数据分析领域的著名数据集。
XAI是指能够提供清晰、有意义且可理解的解释,帮助人类用户理解其决策过程和工作原理的AI模型,模型的核心在于提供透明、可理解的决策过程,弥合了技术复杂性与实用性之间的鸿沟,以增强用户对AI系统的信任和管理能力。XAI主要包括两种方法:一种是内在方法,即使用模型的内部参数来生成解释;另一种是模型无关方法,即当模型被视为“黑箱”且无法访问内部参数时所采用的方法[15]。Khater 等[12]的研究使用了3种与模型无关的XAI方法为ML模型结果提供解释,包括置换重要性(permutation importance,PI)、部分依赖图(partial dependence plot,PDP)和沙普利加性解释(Shapley Additive exPlanations,SHAP)。3种方法优势互补,不仅提取出影响诊断的关键生物标志物,还对其特征进行量化,为诊断结果提供全面多维度的解释,这种透明性不仅增强了医生对AI系统的信任,还为个性化治疗提供了数据支持。
ML算法是AI的一个重要分支,指通过算法和统计模型使计算机系统能够从数据中自动学习和改进的技术,其目标是让计算机系统能够自主地从数据中学习规律和模式,而无需进行显式的编程。ML算法种类较多,包括人工神经网络(artificial neural network,ANN)、梯度提升(light gradient boosting,LGBM)、粒子群优化(particle swarm optimization,PSO)、决策树(decision tree,DT)、鹰策略优化(eagle strategy optimization,ESO)、重力搜索优化(gravitational search optimization,GSO)、支持向量机(support vector machine,SVM)、k-近邻(k-nearest neighbors,KNN)和 XG-boost等,不同算法在不同数据集中对乳腺癌的诊断准确率不同(79.5%~99.96%)[12, 16-19]。ML算法和XAI模型决策过程见图1[12]。
图1 XAI模型决策过程
Khater 等[12]的研究结果发现,WBC中KNN性能最佳(准确率97.7%,精确率98.2%),WDBC中ANN性能最佳(准确率98.6%,精确率94.4%),进一步通过3种XAI方法(PI、PDP和SHAP)交叉验证关键特征后发现,WBC中的“裸核”和WDBC中的“最差面积”是乳腺肿瘤恶性诊断中最重要的特征,与临床病理学中核异型性和肿瘤侵袭性的重要性一致。裸核是指细胞核失去细胞质包裹的现象,常见于高增殖活性的肿瘤细胞,在病理切片中,裸核的增多与细胞周期调控基因(如p53)的突变相关,提示肿瘤侵袭性增强。研究通过XAI方法证实,裸核值≥8时,模型预测恶性的概率显著升高,与临床病理学观察一致。而最差面积描述细胞核面积的最大差值,反映肿瘤细胞的异型性,恶性细胞的核质比通常增高,且核大小变异显著。这些研究结果支持了ML算法和XAI模型在医学诊断中的价值。
2 对研究的评价及讨论
乳腺癌传统诊断方法依赖病理学家的主观经验判断和影像学技术,存在效率低、误诊率偏高、缺乏一致性等问题[20]。研究[21]表明,即便是同一病理医师对同一个黑色素细胞皮肤病变在不同时间段的诊断一致性也较低,最高仅为76.7%~82.6%。这种主观性在高异质性病变(如导管原位癌与非典型增生)中尤为突出,可能导致误诊或漏诊。Elmore等[5]的研究中,不同病理学家对同一乳腺病例诊断的总体一致率仅为 75.3%,其中在浸润癌病例中为96%,在导管原位癌病例中为84%,在不典型增生病例中仅为48%。而Jackson等[22]的研究中,同一病理学家在不同阶段对同一乳腺肿瘤标本的诊断一致率分别为:浸润性乳腺癌92%,原位导管癌84%,不典型增生53%,良性无不典型增生84%。此外,培养优秀的病理医师周期长、成本高。目前病理医师紧缺,导致人工诊断耗时较长,在患者较多的大型三甲医院需要等待1~2周才能拿到诊断结果,且在高负荷工作中诊断精准度下降,易因疲劳导致对细微恶性征象的忽略[23]。根据2018年中华医学会病理学会统计的我国病理从业人员资料推测,我国的临床病理医师缺口达9~10万人[24],病理医师毕业后通常需要参加工作4~5年方可签发一些低风险的病理报告,而成为一名有经验的病理医师则通常需要10年以上的工作经验。英国国家医疗服务体系英格兰分支(NHS England)数据显示,从2010—2011年到2015—2016年,等待任何病理诊断超过6周的患者每年增加约17%[25]。Wolfe等[26]的调查显示,英国的平均病理报告等待时间为5.8周,25%的受访者因皮肤病理报告延误而投诉或导致严重事故。因此寻找高效、精准、快速的肿瘤诊断方法迫在眉睫。
近年来,AI在医学数字病理学诊断中展现出高精度和高效率的优势。Savala等[27]利用ANN模型分析甲状腺滤泡上皮细胞核特征,成功区分了滤泡腺瘤和滤泡癌,取得了100%准确率。Chang等[28]的研究利用基于AI的胃病变检测和诊断系统(ENAD CAD-G)将社区内镜医师对胃肿瘤病变性质的识别准确率从60.71%提高至91.43%。Ruan 等[29]在蛋白质组和转录组数据集中利用EMLI-ICC模型预测肝内胆管癌转移和预后风险分层,准确率分别达97.1%和85.0%。哈佛医学院等机构开发的CHIEF预测模型,能够在几秒内完成19种癌症的诊断,准确率接近94%[30],极大地提升了诊断效率和精准度。尽管如此,AI的不可解释特性限制了其临床应用的信任度和可操作性,研究[31]显示,75%的临床医师拒绝依赖不可解释的AI辅助诊断。首先,不可解释让医生无法理解其决策逻辑,从而对其结果可靠性产生怀疑。其次,不可解释让医生无法通过特征归因追溯原因,一旦出现诊断错误,可能引发不必要的纠纷。最后,不可解释AI不利于医生临床经验的积累,特别对于年轻医生,很难通过这种模型学习和成长。
Khater 等[12]将多种高精度ML算法(如KNN和ANN等)与多种模型无关的XAI方法(PI、PDP、SHAP)相结合,在WBC和WDBC上分别实现了97.7%和98.6%的乳腺癌诊断准确率,还揭示了关键病理特征(“裸核”和“最差面积”)对诊断的贡献,使AI决策逻辑透明化。模型通过Shapley值量化每个特征的贡献度(如“裸核”占35%,“最差面积”占28%),使医生能够像“阅读病理报告”一样理解AI的推理过程。同时,医生可快速定位关键特征并复核相应病理切片,提升诊断效率,减少漏诊风险。一般XAI研究多仅采用单一方法对结果进行解释,而Khater 等[12]将3种模型无关的XAI方法结合共同解释结果,其多维度解释增强了临床医师和患者对模型决策的信任,尤其在复杂病理特征中更显著。同时,其采用多种ML算法对数据集进行模型训练,最终选择诊断精度最高的算法,保证了诊断的精准度。实际临床实践中,经验不足的医生可通过XAI的提示(如高“裸核”评分需优先排查恶性)快速掌握诊断要点,提高诊断准确率,提升临床经验。结合XAI解释,临床医师也可针对关键特征制定干预策略,如对高“裸核”评分患者进行密切随访或优先安排治疗,而对低“裸核”评分患者则可避免不必要的检查与治疗。
然而,Khater 等[12]的方法仍有局限性。首先,这两个数据样本量均较小(WBC仅699例,WDBC仅569例),且未涵盖多中心或多人群数据。虽然在WBC和WDBC取得了理想的结果,但不同的数据集,甚至不同人群、种族等均需要结合不同的ML算法和XAI解释模型,才能取得较高的诊断精确度,因此该模型尚不能在其他数据集和人群中推广。相反,Wang等[30]的研究中,开放了1个通用的泛癌症基础深度学习框架,其训练模型采用的数据收集了全球24家医院32个独立数据集,包含19种肿瘤共1 500万张病理图像的数据,评估了CHIEF预测模型在各种病理评估任务中的表现,包括癌症检测、肿瘤来源预测、基因组织特征识别和生存预测,适用范围和人群更广。其次,WBC和WDBC中肿瘤的病理学特征需要通过肿瘤活检的方法取得,在一定程度上影响其临床可接受度。而Kumar和Das[32]使用的模型,仅需采取外周血细胞,即探索出与早期乳腺癌诊断和预后相关的重要基因和生物标志物。同时,Al-Antari等[33]的模型通过非侵入性的乳房钼靶摄影数据来识别乳腺肿块良恶性,准确率高达98.96%,这些创伤较小的方法临床接受度更高。此外,Khater 等[12]使用的ANN算法在WDBC上训练耗时4.6 s,而Rabiei等[34]使用RF算法在5 178例数据上预测乳腺癌仅用时102 ms,效率明显更高。最后,无论是XAI还是传统AI,其诊断准确率均高度依赖于数据集质量,而目前医疗数据存在标准化程度低、不同地区甚至不同医院间数据质量水平参差不齐等诸多问题。因此,未来需开发多模态融合框架结构,将病理、影像、遗传和临床数据等整合,打破医疗机构间数据壁垒,构建出精准度更高、效率更快、创伤更小、可靠性更高、适用范围更广的大数据XAI诊断模型,以更好地服务于临床。
临床实践中,AI的推广还需解决如何将模型嵌入医院信息系统、实现自动化诊断支持并结合医生反馈持续优化,如何确保患者隐私数据安全、遵循医疗AI伦理规范(如可追溯性、责任归属)等问题。但鉴于AI的持续学习和不断优化提升自我的能力,我们有理由相信,未来AI模型有能力在医学诊疗中协助医生提高诊断效率和准确率,并提供可供医患解读的智能化报告,尤其在医疗资源有限地区,能够提高早诊率、减少漏诊率,进而改善肿瘤患者的预后。
3 小结与展望
Khater 等[12]的研究提出了一种融合XAI与ML算法以增强乳腺癌诊断透明性的评估框架,其核心价值在于将“黑箱”模型转化为医生可理解的决策依据。尽管要在临床中推广仍存在一定的限制,但其方法论为未来AI在医学诊疗中的应用和发展指明了方向,即精准、高效、安全与可解释性并重。然而,若要广泛应用于临床,未来仍需要开发多模态融合框架结构,在更大规模、多样化人群中进一步测试模型性能,同时开展前瞻性临床试验并结合患者综合信息进一步验证其诊断效能。此外,还需解决数据质量标准化、数据接口嵌入、确保患者隐私数据安全、模型自适应更新机制、医生反馈机制、遵循医疗AI伦理规范(如可追溯性、责任归属)等问题,以实现构建医生信任、患者受益的智能化诊疗系统的最终目标。
利益冲突:无。
作者贡献:杜正贵、朱中建参与选题与设计;朱中建、李田园参与资料分析与解释,起草论文初稿;杜正贵对论文中关键性理论进行修改;全体作者最终定稿,确保论文的准确性并对论文承担责任。