欢迎光临
我们一直在努力

bmj是什么机器机器学习临床预测模型的全面评价:以乳腺癌风险预测为例

作者:靳帅;审核:李健民

近年来,临床预测模型研究越来越受到关注,而且大量的研究应用多种不同的机器学习算法建立临床预测模型;但这些研究的质量不容乐观,以模型评价为例,一篇系统综述汇总了心血管疾病的临床预测模型相关研究,发现796个模型中,仅有63%(450/796)报告了C-Index,仅有36%(259/796)报告了校准度评价指标[1]。

另一篇2022年最新发表的系统综述汇总了78项运用人工智能和机器学习算法开展炎性肠病(IBD)临床预测模型的研究,所有研究均报告了区分度指标(AUC或C-Index),但没有研究报告校准度相关指标[2]。

在模型评价和验证时,到底应该报告哪些指标呢?JAMA一篇guide推荐同时报告模型的区分度(如ROC曲线、AUC或C-Index)和校准度(如校准曲线、Brier评分等)[3]。

JAMA[4]、BMJ[5]、JCO[6]、Ann Intern Med[7]等多篇顶刊发表的文献推荐在报告区分度、校准度的同时,还应报告临床实用性指标(如决策分析曲线DCA),以反映临床预测模型指导临床决策的影响和潜在获益。著名的临床预测模型方法学指南TRIPOD声明也推荐同时报告模型的区分度、校准度和临床实用性[8]。

接下来,我们以从UCI网站获取的威斯康辛乳腺癌数据集为例,运用逻辑回归(LR)、分类回归决策树(CART)、随机森林(RF)和支持向量机(SVM)四种机器学习算法建立乳腺癌恶性风险预测模型并对模型从区分度(ROC曲线和AUC)、校准度(校准曲线和Brier评分)和临床实用性(决策分析曲线DCA)三个角度进行全面地评价。所有数据分析采用R语言完成。

  • 一、导入数据集

https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/

以上为 威斯康辛乳腺癌数据集下载链接,文件名称为“breast-cancer-wisconsin.data”。

读取数据集,查看变量信息,共包括699例患者11个变量信息,V1为患者ID,V2~V10是9个变量特征,这些变量特征根据乳房肿块细针穿刺的病理图像计算得到,V11为诊断结果(2=良性,4=恶性)。

变量根据其含义进行重新命名,变量含义及赋值见表1。

表1 变量含义及赋值

二、7:3拆分为训练集和测试集

使用sample()函数,将数据集按照7:3随机拆分为训练集(489例)和测试集(210例)。

三、训练集建立模型

使用caret包建立逻辑回归(LR)、分类回归决策树(CART)、随机森林(RF)和支持向量机(SVM)四种机器学习模型,V2~V10作为预测因子,V11作为结局变量(class: 2=良性,4=恶性)。

将class转化为二分类变量(是否为恶性),方便建模。

3.1 训练LR模型

3.2 训练CART模型

3.3 训练RF模型

3.4 训练SVM模型

四、测试集全面评价模型

4.1 获得四个模型预测测试集的风险概率值

4.2 区分度

使用plotROC包和ggplot2绘制ROC曲线(图A)。

使用pROC包的roc()和auc()函数,计算AUC。不难看出,四种模型的AUC都非常高,接近于1,区分度接近于完美。

4.3 校准度

使用rms包的 calibration() 函数 和ggplot2包绘制LR模型和RF模型的校准曲线。能够看到,与对角线相比,两个模型的校准曲线存在一些偏差,LR模型的校准曲线部分位于对角线上方(低估风险),部分位于下方(高估风险),RF模型主要位于对角线上方(低估风险)。

此外,两个模型的校准曲线置信区间宽度较大,这可能是由于我们将210例测试集分为了5组(cuts=5),每组42例患者,样本量较小。

考虑到使用ggplot2包绘制的校准曲线置信区间比较宽,比较杂乱,我们直接使用R最基础的plot()函数重新绘制四种模型的校准曲线,不展示置信区间,这样比较简洁,便于区分(见下图)。

B. Calibration Curves in the testset

我们再来看一下Brier评分的结果,Brier评分=∑(Y-P)2/N,其中Y为实际观测概率,P为模型预测概率,N为总样本量。Brier评分取值范围0~1,Brier评分值越小,校准度越高。能够看到,四个模型的Brier评分都比较小,没有超过0.05,其中LR模型的Brier评分最小。

4.4 临床实用性

使用dca()函数绘制DCA曲线,评价四个模型的临床实用性,即临床净获益。Vickers等2006年首次介绍了DCA曲线,并提供了使用R语言绘制DCA曲线的 dca() 函代码下载链接 (https://www.mskcc.org/departments/epidemiology-biostatistics/biostatistics/decision-curve-analysis) [9] 。

DCA曲线横坐标是判断恶性/良性的风险阈值(0~1),纵坐标为不同阈值对应的临床净获益(net benifit)。主要比较了根据四种模型划分恶性/良性患者(针对性干预),相比于把所有患者都看作恶性实施干预(ALL曲线)和所有患者都不干预(None曲线),是否有临床净获益。

临床净获益的计算公式为:

其中,TP和FP分别为根据某一阈值进行分类时的真阳性率和假阳性率,w为该阈值的OR值,即

N为样本量。

能够看到,当风险阈值范围在0~0.9左右时,四种模型的临床净获益均高于ALL曲线和None曲线,能够取得临床净获益的阈值范围还是比较大的,但应该注意的是,随着阈值增大,四种模型的临床净获益也在减小。

综上,我们建立了四种机器 学习乳腺癌风险预测模型,而且在测试集从区分度、校准度和临床实用性三个角度进行了全面的评价。 这些结果是不是足够写一篇期刊论文了呢,哈哈哈!

参考文献

[1] WESSLER B S, LAI YH L, KRAMER W, et al. Clinical Prediction Models for Cardiovascular Disease: Tufts Predictive Analytics and Comparative Effectiveness Clinical Prediction Model Database [J]. Circulation Cardiovascular quality and outcomes, 2015, 8(4): 368-75.

[2] STAFFORD I S, GOSINK M M, MOSSOTTO E, et al. A Systematic Review of Artificial Intelligence and Machine Learning Applications to Inflammatory Bowel Disease, with Practical Guidelines for Interpretation [J]. Inflammatory bowel diseases, 2022.

[3] ALBA A C, AGORITSAS T, WALSH M, et al. Discrimination and Calibration of Clinical Prediction Models: Users’ Guides to the Medical Literature [J]. Journal of the American Medical Association, 2017, 318(14): 1377-84.

[4] FITZGERALD M, SAVILLE B R, LEWIS R J. Decision curve analysis [J]. Journal of the American Medical Association, 2015, 313(4): 409-10.

[5] VICKERS A J, VAN CALSTER B, STEYERBERG E W. Net benefit approaches to the evaluation of prediction models, molecular markers, and diagnostic tests [J]. Bmj, 2016, 352: i6.

[6] KERR K F, BROWN M D, ZHU K, et al. Assessing the Clinical Impact of Risk Prediction Models With Decision Curves: Guidance for Correct Interpretation and Appropriate Use [J]. Journal of Clinical Oncology, 2016, 34(21): 2534-40.

[7] LOCALIO A R, GOODMAN S. Beyond the usual prediction accuracy metrics: reporting results for clinical decision making [J]. Annals of Internal Medicine, 2012, 157(4): 294-5.

[8] MOONS K G, ALTMAN D G, REITSMA J B, et al. Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis (TRIPOD): explanation and elaboration [J]. Ann Intern Med, 2015, 162(1): W1-73.

[9] VICKERS A J, ELKIN E B. Decision curve analysis: a novel method for evaluating prediction models [J]. Medical Decision Making, 2006, 26(6): 565-74.

赞(0)
未经允许不得转载:上海聚慕医疗器械有限公司 » bmj是什么机器机器学习临床预测模型的全面评价:以乳腺癌风险预测为例

登录

找回密码

注册