bmj是什么机器临床预测模型概观｜《临床预测模型构建方法学》图书连载-上海聚慕医疗器械有限公司

编者按：临床预测模型作为临床研究的“高阶玩法”，不仅仅是发表高分SCI文章的热门选择，更是改变临床实践的重要途径。随着临床预测模型热度日渐上升，很多团队都在尝试建立各类疾病诊断/治疗的预测模型，但经常遭遇准确性低或应用不便等“拦路虎”。在此背景下，《临床预测模型构建方法学》应运而生。本书由30余位临床统计高手合力编著而成，是一本拿来即用的“实战指南”。

在本书热销之际，AME科研时间将节选部分精彩篇章以飨读者。今天带来“ 临床预测模型概观”一章。本章介绍了一些临床预测模型的最新研究进展。

临床预测模型概观

陈凌霄 ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

近些年来，临床预测模型的应用变得越来越流行。它不仅可以被用在医学领域，而且可以在工程、数学和计算机科学领域发挥作用 [1] 。Collins教授等学者在2015年提出了专门用于临床预测模型研究的报告规范：TRIPOD。此规范被同时发表在11个顶级期刊上。到目前为止，此报告规范已经被引用了数千次。但是在TRIPOD中并没有谈论过多的建模细节。Steyerberg教授在2019年更新了他所著的经典教材Clinical Prediction Models: A Practical Approach to Development, Validation, and Updating到第二版 [1] 。这本书详细地介绍了临床预测模型的方方面面，是不可多得的参考材料。Harrell教授所著的Regression modelling strategies探讨了更多的技术细节，包括线性模型，逻辑回归模型，有序变量回归模型和生存分析[2] 。这本书可以帮助我们更加深入地理解这个领域。这两本书都是极好的学习资料，美中不足的是阅读并理解它们需要大量时间，这对于繁忙的临床医生来说会有一定的困难。周博士等学者撰写了一系列的方法学文章，集中于常用的方法，并提供了相应的R代码[3] 。

一、使用范围

Steyerberg教授认为公共卫生、临床实践以及医学研究是临床预测模型的三个主要的应用分支[1] 。对于公共卫生这一分支，预测某个疾病未来发生的可能性是一个主要目标，可以为开发对应的预防措施提供依据[1] 。举例来说，我们可以利用Framingham评分来对患者进行风险分层，然后对于高危人群给予药物干预。对于临床实践这一分支，我们有如下几种应用场景：第一种是根据某种潜在疾病的发病概率来决定是否给予进一步的检测，我们可以只对那些有高发病风险的患者进行昂贵的和有创的金标准测试，以减少不必要的伤害。第二种是决定我们是否开始一项治疗、是否使用更加强力的治疗方案、是否对一种治疗方案进行成本效益分析、是否通过决策分析来推迟一种治疗。当确诊的概率大于治疗的阈值（进行治疗所预期的好处大于拒绝治疗所预期的好处），则可开始治疗。第三种是决定我们是否需要进行手术来平衡短期（30 d病死率）和长期的风险（长期的生存和骨折风险）。对于医学研究这一分支，我们有两种应用场景：一是在随机对照试验中选择合适的纳入人群和需要校正的协变量；二是观察性研究中的混杂因素校正和人群权重调整。

二、建模过程和模型结果呈现

对于建模过程，Steyerberg教授提出了一个清单，包含了三块内容：即一般的考虑、七个建模步骤和效度[1] 。在一般情况下，研究的问题、应用的场景、结局、预测因子、研究设计、统计建模方法和样本量计算需要被考虑。七个建模步骤则分别是预试、对预测因子进行编码、指定模型、模型估计、模型表现、模型验证和呈现模型结果。在效度这块内容下，内部效度主要考虑过拟合的问题，外部效度则需要考虑可推广性的问题。

对于模型结果呈现，Bonnett博士等学者开发了一个指南并指出了现存的四种主要的呈现形式即点评分系统、图示化评分、列线图和通过网站和手机应用[4] ，这几种呈现的方式各有优缺点。研究者需要考虑谁是终端使用者，何时何处会使用到这个模型，然后再选择一个合适的方法来呈现结果。van Smeden博士编制了一份流程图（图24-1），可以启发我们的思考[5] 。在许多情形下，可能并不需要开发一个新的模型，考虑到现在已经有很多现存的模型。

图24-1 是否应该建立风险预测模型流程图

三、此研究是如何介绍的临床预测模型

这个研究包含了一系列关于临床预测模型的方法学论文。周博士等学者用了16章仔细描述了常用的方法以及具体的R代码。第一章介绍了理论基础和应用现状；第二章介绍了预测因子筛选的方法；第三章、第四章、第五章、第六章介绍了两个常用的统计模型（逻辑回归和Cox等比例风险模型），以及相应的列线图绘制方法和C统计量的计算方法；第七章和第八章介绍了两个评估模型改善程度的统计量，即净重分类指数和综合判别改善指数；第九章和第十章介绍了决策曲线分析以及它在生存分析中的应用；第十一章和第十二章，作者补充介绍了在逻辑回归和Cox回归中的模型验证的知识；第十三章和第十四章介绍了竞争风险模型以及对应的列线图绘制；第十五章介绍了处理异常值和缺失数据的策略；第十六章介绍了一些高级的方法，例如岭回归和套索回归（注：LASSO回归）。它们现在变得越来越流行，特别是在筛选变量和惩罚参数上。

四、研究的局限性

这个研究中的几条原则已经过时，我们在应用时需要注意[3] 。①对于连续性变量，周博士等学者认为当变量和结果之间的关系是非线性的时候，我们应该将其转换为二分类或者是有序变量[3] 。根据最新的风险偏倚评估工具-PROBAST，将连续性变量进行二分类转换或者多分类转换会丢失信息[6] 。例外情况是切分变量的截点是得到广泛公认的，而不是基于现有数据产生的。②在拟合非线性关系时，应当考虑应用限制性立方样条或者分段多项式回归。对于变量筛选的方法，周博士等学者提到了需要同时考虑单变量分析的结果、临床理由、样本量和统计学效能[3] ，但是PROBAST上明确声明了应当避免使用单变量分析。因为一些重要的预测因子只有在被校正后才能显示出来，以及单变量分析可能会发现一些虚假的关联[6] 。③在变量筛选时，我们需要考虑如下三方面因素：一是预测因子的现有文献知识；二是与特定场景相关的预测因子测量方面的信度、一致性、适用性、实用性和费用；三是不基于预测因子和结果之间的关联的统计建模可以被当作一种降低预测因子数量的方法。

五、最新的进展

（一）数据来源

单中心回顾性队列研究和注册数据库通常被用在预测模型的研究中，因为它们相对便宜和容易获得[1] 。但是这两种类型的数据有着一些缺点，比如缺失数据以及对预测因子/结局不恰当的定义和测量[1] 。认真的设计研究，然后前瞻性的收集数据是一个理想的做法，但是这个做法过于花费时间和金钱[7] 。Pajouheshnia博士等学者提出了我们可以考虑直接使用现存随机对照试验中的数据，这样就可以减少一些潜在的研究浪费[8] 。但是在使用随机对照试验的数据时需要谨慎，如下七个因素可能会对数据使用造成影响：知情同意、选择性的纳入研究中心、选择性的纳入参与者、预测因子的测量、无关的试验效应、短期的和替代的结局、样本量。具体的应对策略在他们的文章中有详细的阐述[8] 。

（二）样本量

每个预测因子参数所需要的最小事件数（EPP）被提出来判断研究的样本量是否足够。10EPP是我们通常使用的经验法则[9] 。van Smeden博士等学者进行了两项统计学模拟研究后发现10EPP不够有效[10-11] 。Riley等[12-13] 提出了一个新的体系。①对于连续性结局：第一，预测因子效应值上小的乐观性被定义为总体的收缩因子≥0.9；第二，原始的和调整后的R2的绝对差异<0.05；第三，模型残余标准差要足够准确（边缘误差小于真实值的10%）；第四，模型的截距准确。②对于二分类或生存结局，上述4点中的第二点关注的是Nagelkerke’s R2，第三点则是人群中的整体风险要足够准确。

（三）风险偏倚评估工具

我们通常把预测研究分成预测因子研究、预测模型研究和预测模型影响性研究[14] 。Hayden等[15] 提出了QUIPS工具来评估预测因子研究中的风险偏倚。ROB 2.0和ROBINS-I可以被用来评估预测模型影响性研究，分别通过随机对照试验和非随机对照试验来实现[16-17] 。Wolff等[6] 提出了PROBAST工具来评估预测模型研究中的风险偏倚。这个工具包含了4个方面（参与者，预测因子，结局和数据分析）和20个核心问题，可以被用来全面的评估预测建模研究中所有的步骤（开发模型、验证模型或更新模型）。

（四）不确定性

区分度和校准度是两个用来评估临床预测模型有效性的常用方法。但是这两个统计量不能确保从模型中得到的绝对风险的稳健性[18] 。Pate等[19] 进行了不确定性分析[20] （一种统计学工具，用来检测模型是否可以在个体上表现良好），此项分析测试了6种不同的建模策略（模型A到模型F）在心血管疾病上的表现。尽管C统计量在不同的模型下非常相似（女性0.86~0.87，男性0.84~0.85），但绝对风险在不同的模型下的差异很大（例如对于女性队列，模型A的10年风险为9%~10%，模型B则是8%~13.5%，模型C为7.7%~16.1%，模型D 为4.9%~15%，模型E为4.6%~15.5%，模型F为4.4%~16.3%）。如何选择协变量、长期的趋势、地理位置和如何处理缺失数据都会明显影响结果[19] 。

（五）机器学习

机器学习这个术语最近变得异常火热。现在也有相当数量的临床预测模型研究使用了这项技术。但是在机器学习技术和传统统计学方法之间并没有一条明显的分界线。Van Calster等[21] 指出这两个系统实际上是连续统一的从少到多的建模灵活性，从更多的数据依赖更少的主观知识到更少的数据依赖更多的主观知识。在他们的系统评价和Meta分析（机器学习对比逻辑回归）中[22] ，逻辑回归被定义为标准的极大似然估计联合惩罚性的逻辑回归（套索回归，岭回归，弹性网络）。其他传统的统计学方法，例如泊松回归，广义估计方程和广义加性模型，没有被计入机器学习技术范畴。他们发现机器学习并没有比逻辑回归表现得更好（以受试者工作曲线作为标准）。当我们想在临床预测建模领域使用一些新奇的方法时，我们可能需要更加仔细地准备我们的数据分析方案。Collins教授等学者[23] 正在开发专门针对人工智能预测建模研究的报告规范。这将会给这个相对混乱的领域提供一个标准。

六、其他参考材料

除去本文引用的所有文献，大家仍然可以选择其他高质量的参考材料加以阅读，下面列了几项供读者参考。

（Ⅰ）Riley RD，van der Windt D，Croft P，Moons KG. (Eds.). (2019). Prognosis Research in Healthcare：Concepts，Methods，and Impact. Oxford University Press.

（Ⅱ）Wickham H，Grolemund G. (2016). R for data science：import，tidy，transform，visualize，and model data. “O’Reilly Media，Inc.”.

（Ⅲ）Decision Curve Analysis https://www.mskcc.org/departments/epidemiologybiostatistics/biostatistics/decision-curve-analysis.

致谢

作者对Maarten van Smeden博士富有建设性的意见致以最诚挚的感谢。

参考文献（向上滑动查看）

[1] EWOUT WS. Clinical Prediction Models：A Practical Approach to Development，Validation，and Updating[M]. SPRINGER NATURE；2019.

[2] Harrell Jr FE. Regression modeling strategies：with applications to linear models，logistic and ordinal regression，and survival analysis[M]. Springer；2015.

[3] Zhou ZR，Wang WW，Li Y，et al. In-depth mining of clinical data：the construction of clinical prediction model with R. Ann Transl Med，2019，7(23)：796.

[4] Bonnett LJ，Snell KIE，Collins GS，et al. Guide to presenting clinical prediction models for use in clinical settings[ J]. BMJ，2019，365：l737.

[6] Wolff RF，Moons KGM，Riley RD，et al. PROBAST：A Tool to Assess the Risk of Bias and Applicability of Prediction Model Studies[ J]. Ann Intern Med，2019，170(1)：51-58.

[7] Moons KG，Royston P，Vergouwe Y，et al. Prognosis and prognostic research：what，why，and how?[ J]. BMJ，2009，338：b375.

[8] Pajouheshnia R，Groenwold RH，Peelen LM，et al. When and how to use data from randomised trials to develop or validate prognostic models[ J]. BMJ，2019，365：l2154.

[9] Peduzzi P，Concato J，Kemper E，et al. A simulation study of the number of events per variable in logistic regression analysis[ J]. J Clin Epidemiol，1996，49(12)：1373-1379.

[11] van Smeden M，de Groot JA，Moons KG，et al. No rationale for 1 variable per 10 events criterion for binary logistic regression analysis[ J]. BMC Med Res Methodol，2016，16(1)：163.

[12] Riley RD，Snell KIE，Ensor J，et al. Minimum sample size for developing a multivariable prediction model：PART II – binary and time-to-event outcomes[J]. Stat Med，2019，38(7)：1276-1296.

[13] Riley RD，Snell KIE，Ensor J，et al. Minimum sample size for developing a multivariable prediction model：Part I – Continuous outcomes[ J]. Stat Med，2019，38：1262-1275.

[14] Hemingway H，Croft P，Perel P，et al. Prognosis research strategy (PROGRESS) 1：A framework for researching clinical outcomes[ J]. BMJ，2013，346：e5595.

[15] Hayden JA，van der Windt DA，Cartwright JL，et al. Assessing bias in studies of prognostic factors[ J]. Ann Intern Med，2013，158(4)：280-286.

[16] Sterne JA，Hernán MA，Reeves BC，et al. ROBINS-I：a tool for assessing risk of bias in nonrandomised studies of interventions[ J]. BMJ，2016，355：i4919.

[17] Sterne JAC，Savovic J，Page MJ，et al. RoB 2：a revised tool for assessing risk of bias in randomised trials[ J]. BMJ，2019，366：l4898.

[18] Alba AC，Agoritsas T，Walsh M，et al. Discrimination and Calibration of Clinical Prediction Models：Users’ Guides to the Medical Literature[ J]. JAMA，2017，318(14)：1377-1384.

[19] Pate A，Emsley R，Ashcroft DM，et al. The uncertainty with using risk prediction models for individual decision making：an exemplar cohort study examining the prediction of cardiovascular disease in English primary care[ J]. BMC Med，2019，17(1)：134.

[20] Hofer E. The Uncertainty Analysis of Model Results：A Practical Guide[M]. Springer；2018.

[21] Van Calster B，Verbakel JY，Christodoulou E，et al. Statistics versus machine learning：definitions are interesting (but understanding，methodology，and reporting are more important)[ J]. J Clin Epidemiol，2019，116：137-138.

[22] Christodoulou E，Ma J，Collins GS，et al. A systematic review shows no performance bene t of machine learning over logistic regression for clinical prediction models[ J]. J Clin Epidemiol，2019，110：12-22.

[23] Collins GS，Moons KGM. Reporting of artificial intelligence prediction models[ J]. Lancet，2019，393(10181)：1577-1579.

欲解锁更多精彩内容，并获得书中相关数据及代码，请扫描下方二维码进入微店！

临床预测模型构建方法学

资讯

AME旗下13本期刊最新影响因子｜2021年6月

责任编辑：陈童 AME Publishing Company

排版编辑：王翩 AME Publishing Company

b.03. 2022.06.07.01

点击

阅读原文

进入AME微店

bmj是什么机器临床预测模型概观｜《临床预测模型构建方法学》图书连载

相关推荐

作者介绍

聚慕医疗

热门文章

切换注册登录

切换登录注册