基于大语言模型的临床预测模型研究报告指南(TRIPOD-LLM)解读

时间:2025-08-26 12:12:04   热度:37.1℃   作者:网络

摘  要

大语言模型(large language model,LLM)医学研究数量激增,建立标准化、透明化的报告规范变得尤为重要。2025年1月,Nature Medicine发表LLM医学研究报告指南(TRIPOD-LLM),是首个专门针对基于LLM构建预测模型研究的综合性报告框架,其内容包括1个清单(19个主条目、50个子条目)、1个流程图和摘要清单(12个条目)。本文从TRIPOD-LLM的制订方法、主要内容、适用范围及各条目的具体内容进行解读,帮助研究者、临床医生、编辑、医疗决策者深入理解并正确使用TRIPOD-LLM,提高LLM医学研究报告质量和透明度,促进LLM规范、伦理地融入医疗领域。

正  文

为促进预测模型研究的透明化与规范化报告,2015年BMJ等11家国际知名期刊同时发布个体预后诊断预测模型研究报告指南(transparent reporting of a multivariable prediction model for individual prognosis or diagnosis,TRIPOD),即TRIPOD 2015[1-2],提出包括22个条目(37个子条目)的清单。随后相继推出预测模型研究的摘要报告指南(TRIPOD for Abstracts)[3],运用群组数据构建或验证预测模型研究报告指南(TRIPOD-Cluster)[4-5],预测模型研究的系统评价和Meta分析报告指南(TRIPOD-SRMA)[6],预测模型研究方案报告指南(TRIPOD-P)[7]。TRIPOD主要用于报告基于回归分析构建或验证模型的研究。随着人工智能(artificial intelligence,AI)技术的方法学突破,从传统机器学习(如随机森林、支持向量机)到深度学习方法(如卷积神经网络、长短期记忆网络),这些数据驱动型算法在预测模型的开发与验证中得到广泛运用[8-13],TRIPOD 2015在应对非参数化、非线性建模方法的报告要求时已显现出明显局限性[14-15]。2024年,TRIPOD团队更新了TRIPOD 2015,在BMJ上发布了针对主要使用统计回归模型或机器学习的临床预测模型研究报告指南(TRIPOD+AI)[16],清单条目由22个增加至27个。目前AI技术快速发展,大语言模型(large language model,LLM)作为一种新兴生成式AI工具迅速应用于医学领域[17-18]。TRIPOD+AI对报道基于LLM构建预测模型的特有挑战缺乏针对性指导。为了促进完整、清晰和透明化报告LLM医学研究,2025年1月,Nature Medicine发表基于LLM临床预测模型报告指南(TRIPOD-LLM)[19]。

TRIPOD-LLM[19]作为首个专门针对基于LLM的临床预测模型研究的综合性报告框架,旨在通过规范化研究披露标准,提升基于LLM的临床预测模型研究的透明度、可重复性和临床适用性。本文将系统解读TRIPOD-LLM的核心内容与创新价值,为研究人员深入理解和正确应用TRIPOD-LLM提供参考。

1 制订方法

TRIPOD-LLM制定流程严格遵循EQUATOR协作网指南开发规范,由跨学科指导委员会(包含临床医学、自然语言处理、AI和医学信息学等领域的专家)全程监督,采用改良德尔菲法,最终会议对核心条目达成共识,具体流程见附图1。该流程确保指南既保持方法学严谨性,又能适应生成式AI的技术特性。

图片

图1 TRIPOD-LLM 报告指南工作流程图[19]

2 概述

TRIPOD-LLM报告指南基于TRIPOD-2015[1]和TRIPOD+AI[16]框架,专为基于LLM的临床预测模型设计。TRIPOD-LLM[19]清单包含19个主条目(50个子条目),涵盖论文从标题到讨论的每部分,形成“基础模块+扩展模块”的弹性结构。基础模块(14个主条目,32个子条目)适用于所有LLM任务类型,扩展模块(5个主条目,18个子条目)则针对特定研究场景(如提示工程优化、多模态模型开发)提供定制化报告规范(附表1)。这种分层设计既保证了核心要素的强制披露,又为技术创新预留了适应性空间。

TRIPOD-LLM包括专门用于期刊或会议摘要的清单(附表2),共12个条目,在TRIPOD+AI摘要清单[16]基础上修订,反映LLM特有的内容要素,并与TRIPOD-LLM全文清单中的摘要条目相同。

TRIPOD-LLM有4方面的创新:(1)首创“任务-场景”双维适配机制,根据研究设计和任务类型动态调整报告要求;(2)将伦理审查、公平性验证和人类监督作为强制报告项,要求研究披露数据溯源路径、偏见修正方法和临床部署中的监督机制;(3)研发团队不仅提供工作流程图(图1)直观展示从研究设计到结果报告的标准化路径,还配套研制了交互式网站支持研究者自动生成定制化报告清单,并可获取已完成的示例和详细的解释文档;(4)建立动态文档(Living Document)更新机制,专家小组每季度整合技术进展与用户反馈进行更新,并引导用户引用最新版本。

适用范围

TRIPOD-LLM采用“研究设计”和“任务类型”双维度分类体系界定其适用范围(附表3)。这种分类体系突破了传统AI报告指南的二分法(建立vs. 验证),更符合LLM迭代式研发的特点。(1)在研究设计维度,涵盖从零开发LLM、LLM方法学研究、LLM评估研究和医疗环境中的LLM评估。(2)在任务类型维度,包括9类LLM任务:文本处理、分类、长格式问答、信息检索、对话代理、文档生成、摘要与简化、机器翻译和结果预测。TRIPOD-LLM采用模块化结构,包含19个主要项目和50个子项目,其中部分适用于所有研究类型,部分则根据具体研究设计或任务类型选择性应用。这些研究设计和任务类型范围广泛但不相互排斥,取决于特定研究的背景,且可能随着LLM应用的发展而演变。

TRIPOD-LLM条目解读

4. 标题和摘要(条目1~2)

标题清晰描述研究的核心要素:(1)研究设计(开发、微调或评估LLM);(2)具体医疗任务(如文本生成、疾病诊断、临床决策支持);(3)目标人群(如特定患者群体或医护人员);(4)预测或评估的关键结局指标(如诊断准确率、患者预后预测)。

摘要撰写需遵循TRIPOD-LLM指南的摘要清单;见附表2。

4.2 前言(条目3a、3b、4)

前言包括研究背景和研究目标。3a:研究背景,描述LLM应用场景,如行政管理、疾病诊断以及治疗决策支持等,并分析LLM的潜在价值,如提高诊断精度、优化治疗方案等。对比现有研究或模型探讨局限性。3b:明确LLM的目标人群及其在医疗服务路径中的角色,如作为临床决策支持系统辅助医生诊断或为患者提供健康咨询。4:研究目标,包括研究的阶段性目标,如LLM初始开发、微调优、验证评估或多个阶段的结合。

4.3 方法学(条目5~15)

4.3.1 条目5:数据

用5个子条目详细阐述数据来源与处理流程。5a:数据溯源:标注训练、微调和评估等阶段的数据来源,论证数据来源与研究场景的适配性以及使用理由。5b:数据特征:描述数据来源及具体数据点特征(如病历文本、影像数据、基因数据)等,包括定量维度(如样本量、人口统计学特征)和定性维度(如语言类型、地域覆盖)。5c:时效性:用于开发过程和评估数据集的最早和最新日期及数据获取时间与模型部署时间的时滞效应,特别是在涉及动态临床指南更新的领域,需评估时间偏移可能导致的模型性能衰减。5d:数据的预处理流程和质量控制措施:包括文本清洗、去标识化及医学术语统一等,并说明这些处理方法在不同数据子集、医疗机构和人口群体间的一致性水平,避免引入系统偏差。5e:缺失值和类别不平衡:报告处理方法、数据剔除标准与比例,并评估这些处理对模型性能和公平性的影响。

4.3.2 条目6:分析方法

用5个子条目披露LLM的技术细节。6a:模型标识:采用标准化命名体系,包括LLM的全称、版本号及最终训练时间节点。对于开源模型或商业模型,应严格遵循官方发布的版本标识;自研模型则需建立明确的版本标识体系,注明训练完成的具体时间戳。需特别注意医疗领域模型的知识时效性。6b:模型开发过程:包含但不限于架构拓扑结构(如Transformer层数、注意力头配置)、预训练数据集特征(如临床文本来源、数据脱敏处理方式)、微调策略、优化器选择及对齐策略(如近端策略优化算法、奖励模型构建方法、安全护栏设置)等。对已发布的开源模型,引用官方技术报告并说明所用版本;对于自研模型,建议采用技术附录形式披露可能的超参数配置表及训练资源消耗;对于使用闭源商业模型的研究,应详细说明模型版本、接口参数设置及任何可控的配置选项。6c:文本生成细节,包括但不限于:随机种子设置、温度参数、采样设置、惩罚系数及医疗专业术语保护设置等。在多轮对话场景中,可提供对话流程图并标明关键决策点。提示工程方面需提供完整的prompt模板、上下文管理策略,以及医疗知识验证机制及置信度校准方法。若涉及医疗决策支持场景,应明确阈值设定标准和不确定性表达规则。6d:应区分LLM的原始输出和经过后处理的最终输出。建议采用标准化格式,将原始输出用引号标注为“模型直接输出”,后处理结果则标注为“后处理输出”并说明转换逻辑。6e:若涉及分类任务,需提供完整分类框架及其与标准医学术语体系(如ICD-10/11)的映射关系。概率解码过程可披露归一化方法、校准技术及不确定性量化指标。阈值设定须说明标准和临床验证流程。对于多标签或层级分类,应明确决策规则及异常情况的专家复核机制。

4.3.3 条目7:LLM输出

用5个子条目阐述LLM输出的框架。7a:建立多维度生成质量评估体系:生成内容与医学知识体系的一致性、临床场景相关性、医学事实准确性、与金标准比较的错误类型分析。7b:报告结局指标与模型部署时环境中下游任务的相关性,详细说明这些指标如何反映LLM在实际医疗环境中价值表现,例如模型输出对医疗决策的影响、工作效率提高或患者体验的改善。在适用情况下,应采用适当的统计方法分析指标与人类专业评价之间的相关性。7c:定义结局指标、LLM预测的计算方式及评估方法,包括算法层面应公开提示工程方法及参数配置范围,计算层面需提供可复现的公式、代码或API调用详情。对闭源模型,必须标注推理时间戳和评估指标。7d:针对需要主观解释的评估,详细描述评估者资质和人口统计学特征,并要求提供评估者所有评估指导材料、评分标准和评估框架。此外,建议采用适当的统计方法评估者间的一致性和不一致情况的处理方法。7e:分析LLM与其他模型、人类、行业标准的差异,从多维度分析LLM的性能表现。

4.3.4 条目8:标注

用3个子条目描述完整记录标注情况。8a:文本标注方法:包括具体标注指南和标注示例,必要时提供完整标注协议的引用或访问方式。8b:数据标注人数,包括每个数据集中由多个标注者共同标注的数据比例,以及标注者间的一致性及计算一致性的统计方法,处理标注争议的流程。8c:标注者资质和标注方式:明确人工标注者的专业背景(如医疗专科、临床经验年限)和培训情况。对众包标注,需明确参与者筛选标准及质量控制机制。针对其他LLM辅助或自动标注系统,应说明系统特性、协作流程及质量验证方法。

4.3.5 条目9:提示

用2个子条目描述提示开发过程。9a:提示工程的完整流程,包括但不限于:提示理论框架选择、提示模板结构设计、迭代优化中的关键决策点。提示筛选与评估所采用的具体标准及其量化方法及最终提示选择的具体依据及验证方法。建议采用提示示例和设计流程图展示结果。9b:用于提示开发的数据资源,包括数据来源与获取方式、数据规模与构成特征。若涉及真实患者数据,必须明确伦理审批与隐私保护措施。在结果中采用结构化形式呈现数据集的关键特征。

4.3.6 条目10:摘要生成

在摘要生成任务前,研究者需透明披露数据预处理流程和细节,包括质量过滤、数据清洗、标准化处理、隐私脱敏、去重以及分词处理方法等。针对非结构化医疗数据,需明确文本和影像数据的特定处理方法及其依据。另外,应评估数据质量对LLM能力产生的影响。

4.3.7 条目11:指令微调/对齐

指令微调和对齐策略实施中涉及的方法学要素,包括微调数据集的结构化特征、临床指令设计原则(如医学知识表达的规范性、多场景适应性验证方法)、评估交互界面的设计、人类反馈收集方法学(评估者选择标准、反馈整合机制、迭代优化流程)以及对齐安全措施(防止医疗错误、有害输出和控制幻觉的具体机制)。描述评估人员的群体构成、临床经验水平及评估标准建立依据。

4.3.8 条目12:计算

记录量化模型研发及推理阶段所需的计算资源或其替代指标,包括但不限于硬件配置、算力成本、模型推理时间及推理延迟等,同时需提供理论计算量指标(如每秒浮点运算次数FLOPS)及实际运行效率(FLOPS利用率百分比)。

4.3.9 条目13~15:伦理审批、开放科学及患者和公众参与

13:伦理审批与伦理豁免、知情同意。第14条主要是开放科学的内容。14a:研究资助与资金来源及其在研究中所起作用。14b:利益冲突及财务披露。14c:研究方案获取途径。14d:研究注册号、注册机构与日期。14e:研究数据可用性的详细信息。14f:重现研究结果代码可用性的详细信息。15:患者和公众在研究设计、执行及结果解读中的参与程度。

4.4 结果(条目16~18)

4.4.1 条目16:参与者

用4个子条目描述使用患者/EHR数据的LLM研究的细节。16a:患者/EHR数据在研究过程中的流动路径,包括数据预处理步骤,含或不含结局/标签的文档、问题及参与者数量,以及适用的随访时间,可采用规范化表格,辅以流程图直观展示。16b:整体数据特征及各数据源或环境的开发数据与评估数据特征,包括关键时间点(如数据收集时间范围)、主要特征、样本量及缺失数据等,可采用表格或结构化方式展示。16c:若涉及临床结局的LLM评估,应采用适当的统计方法对比开发数据与评估数据中可能与结局相关的重要临床变量(如疾病严重度指标、合并症状况或关键生理指标)的分布差异。16d:应清晰报告各分析阶段(模型开发、超参数调优、模型评估)的样本量及结局事件数量。对于结局事件发生率较低的研究,应特别说明样本量的充分性考量。

4.4.2 条目17:模型性能

应按照方法学部分预先定义的评估指标(如准确度、精确度等)和/或人工评估呈现模型性能,提供各项指标的点估计值及其置信区间,可采用图表展示,避免选择性报告。对于人工评估部分,应详细说明评估流程、评价者资质及评价者间一致性结果。应报告模型在关键人口学特征子群体中的表现差异,以及与现有标准方法的比较结果(若有)。

4.4.3 条目18:LLM更新

若涉及LLM更新,需报告任何LLM更新的结果,如更新后的模型状态、更新频率、性能表现变化、性能变化的统计学和临床意义(若适用)及更新对实际应用场景的影响。对于涉及临床决策的模型,特别说明更新如何影响模型的解释性和决策依据。

4.5 讨论(条目19)

4.5.1 条目19a:解释

提供对主要研究结果的整体解释,在研究目标和先前研究背景下讨论结果,阐述研究发现的临床意义,将结果与已有文献进行对比分析。此外,须特别关注LLM评估中的公平性问题,讨论模型表现在不同人口群体、语言、文化背景等方面是否存在差异,以及这些差异可能带来的伦理和社会影响。如研究设计中包含临床应用目标或性能阈值,应讨论模型实际性能与这些目标的符合程度及临床意义。

4.5.2 条目19b:局限性

讨论研究的任何局限性,包括数据局限、方法学局限及模型特性局限等。应量化评估这些因素对结果可靠性、统计稳健性及泛化性的影响,并指出结果解释时需谨慎考虑的方面。对于面向临床应用的研究,还应讨论这些局限性对实际医疗实践的潜在影响。

4.5.3 条目19c~19g:LLM在环境中的可用性

用5个子条目描述LLM在特定任务与领域环境中的可用性。19c:挑战:基于现有文献和实证研究识别并详细说明LLM在特定应用场景中使用时可能遇到的问题,如数据的完整性、缺失、多源数据的有效整合以及导致模型产生偏见等。19d:预期应用场景:明确模型的预期用途和/或不适用情境,包括模型接受输入数据类型、终端用户、模型的自主权限度与人类监督程度等,指明模型设计的决策支持角色(如筛查、诊断辅助、治疗建议等)。19e:数据质量:评价和处理质量不佳或无法获取的数据的方法,如保证模型在临床中可靠运行的方法。讨论数据质量变化对模型性能的潜在影响。19f:用户交互:模型运行过程中用户参与的必要性及程度,用户所需的专业技能门槛。19g:未来研究方向:基于当前研究发现和局限性提出后续研究方向建议,特别是提高模型在不同场景中的适用能力及跨域泛化能力,以推动临床应用从技术可行性向临床效用性转化。

讨论

LLM(如ChatGPT、Claude、Google Bard)作为生成式AI的代表,其自回归特性虽赋予其通过提示工程适应多任务的能力,却面临挑战[20-23]:(1)输出不可控性:在医疗文本生成中易产生“幻觉”和关键信息遗漏,这在罕见病诊断等高风险场景下可能生成缺乏循证依据的推断;(2)数据偏差放大:算法透明度不足可能导致LLM训练数据中的系统性偏见通过黑箱决策机制被放大,进而加剧医疗资源分配不公和健康差异;(3)评估标准割裂:医疗LLM研究缺乏跨学科通用框架,不同医学专科采用的评估指标存在显著异质性,导致不同研究结果难以比较,阻碍了最佳实践的凝练;(4)监管适配滞后:医疗机构与技术公司的加速合作使LLM部署速度远超现有监管能力,尤其在模型集成到临床工作流程中时,缺乏足够的安全保障和问责机制;还有在临床部署中的伦理风险等问题。这些挑战在当前研究中已有具体体现。2025年Shool等[24]的系统评价提供了对临床医学LLM研究的全面分析。该研究检索时间截至2025年1月,共纳入761项研究,揭示了LLM在医疗领域应用的快速增长态势:从2019年仅1篇研究激增至2024年的557篇。这种指数级增长反映了技术潜力,但同时也暴露出研究质量的系统性问题:评估方法之间存在显著异质性,缺乏标准化评估框架,不同专业领域采用的评估指标差异明显,导致研究结果难以进行有效比较。此外,大多数研究过分关注准确性(21.78%)等技术指标,而忽视安全性和公平性等伦理参数。这不仅阻碍了对LLM医学应用能力的统一理解,也为临床实践中的安全部署带来挑战。与此呼应,2025年Lieberum等[25]的范围综述也指出,LLM在系统评价领域的研究报告质量存在明显不足,包括方法学细节缺失(如具体使用的提示词)、验证方法不严谨等。该研究对LLM在系统评价领域应用前景的评估显示:54%(n=20)认为有希望,24%(n=9)保持中立,22%(n=8)认为没有希望。这两项研究均强调建立标准化报告和评估框架的迫切性,以提高研究透明性和方法的严谨性,确保LLM能够安全、有效且公平地融入医疗实践。

因此,完整透明化报告LLM相关医学研究具有重大意义。TRIPOD-LLM的及时发布,为解决上述挑战提供了可行方案,有助于医疗领域LLM应用进入规范化新阶段。TRIPOD-LLM通过系统化的报告框架、灵活的模块设计和动态的更新机制,为LLM医学研究提供了重要的质量保障。TRIPOD-LLM不仅能规范研究报告,还可推动整个医疗AI领域向更规范、更透明、更可靠的方向发展。TRIPOD-LLM是报告指南而非质量评估工具,其不规定如何开发或评估LLM,而是提供透明报告标准。其与CANGARU[26]和CHART[27]等指南共同构成了医疗健康领域生成式AI和聊天机器人的综合报告指南体系。虽然TRIPOD-LLM不能解决LLM研究中所有技术和伦理挑战,但为研究人员和临床医生评估LLM在医疗环境中适用性提供了基本框架,为提升医疗LLM研究的可重复性和结果可比性提供了坚实的基础,有助于促进该领域的科学严谨性和实践规范。

利益冲突:刘雪梅为《中国胸心血管外科临床杂志》编辑部成员,参与此文的设计、撰写。作者声明,在本文的撰写和出版过程中,不存在任何可能影响本文客观性的财务、个人或其他利益冲突。

作者贡献:周小芹提出论文初步构思、作图表、负责论文的撰写与修改;刘慧珍、王婷核实表格内容、论文修改;康德英提出论文选题、修改论文框架、终审论文;刘雪梅提出论文选题、参与初稿撰写、设计并修改论文框架、终审论文。所有作者均参与论文框架讨论及修订。所有作者都阅读并同意论文的最终文本。

本文附表1、附表2、附表3、附图1见本刊网站电子版。

上一篇: 乳腺增生、结节、囊肿、纤维瘤有什么区别?...

下一篇: 全球20亿人蛀牙难题破解?最新研究:头发...


 本站广告