bmj是什么机器机器学习临床预测模型的全面评价：以乳腺癌风险预测为例-上海聚慕医疗器械有限公司

作者：靳帅；审核：李健民

近年来，临床预测模型研究越来越受到关注，而且大量的研究应用多种不同的机器学习算法建立临床预测模型；但这些研究的质量不容乐观，以模型评价为例，一篇系统综述汇总了心血管疾病的临床预测模型相关研究，发现796个模型中，仅有63%（450/796）报告了C-Index，仅有36%（259/796）报告了校准度评价指标[1]。

另一篇2022年最新发表的系统综述汇总了78项运用人工智能和机器学习算法开展炎性肠病（IBD）临床预测模型的研究，所有研究均报告了区分度指标（AUC或C-Index），但没有研究报告校准度相关指标[2]。

在模型评价和验证时，到底应该报告哪些指标呢？JAMA一篇guide推荐同时报告模型的区分度（如ROC曲线、AUC或C-Index）和校准度（如校准曲线、Brier评分等）[3]。

JAMA[4]、BMJ[5]、JCO[6]、Ann Intern Med[7]等多篇顶刊发表的文献推荐在报告区分度、校准度的同时，还应报告临床实用性指标（如决策分析曲线DCA），以反映临床预测模型指导临床决策的影响和潜在获益。著名的临床预测模型方法学指南TRIPOD声明也推荐同时报告模型的区分度、校准度和临床实用性[8]。

接下来，我们以从UCI网站获取的威斯康辛乳腺癌数据集为例，运用逻辑回归（LR）、分类回归决策树（CART）、随机森林（RF）和支持向量机（SVM）四种机器学习算法建立乳腺癌恶性风险预测模型。并对模型从区分度（ROC曲线和AUC）、校准度（校准曲线和Brier评分）和临床实用性（决策分析曲线DCA）三个角度进行全面地评价。所有数据分析采用R语言完成。

一、导入数据集

https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/

以上为威斯康辛乳腺癌数据集下载链接，文件名称为“breast-cancer-wisconsin.data”。

读取数据集，查看变量信息，共包括699例患者11个变量信息，V1为患者ID，V2~V10是9个变量特征，这些变量特征根据乳房肿块细针穿刺的病理图像计算得到，V11为诊断结果（2=良性，4=恶性）。

变量根据其含义进行重新命名，变量含义及赋值见表1。

表1 变量含义及赋值

二、7:3拆分为训练集和测试集

使用sample()函数，将数据集按照7:3随机拆分为训练集（489例）和测试集（210例）。

三、训练集建立模型

使用caret包建立逻辑回归（LR）、分类回归决策树（CART）、随机森林（RF）和支持向量机（SVM）四种机器学习模型，V2~V10作为预测因子，V11作为结局变量（class: 2=良性，4=恶性）。

将class转化为二分类变量（是否为恶性），方便建模。

3.1 训练LR模型

3.2 训练CART模型

3.3 训练RF模型

3.4 训练SVM模型

四、测试集全面评价模型

4.1 获得四个模型预测测试集的风险概率值

4.2 区分度

使用plotROC包和ggplot2绘制ROC曲线（图A）。

使用pROC包的roc()和auc()函数，计算AUC。不难看出，四种模型的AUC都非常高，接近于1，区分度接近于完美。

4.3 校准度

使用rms包的 calibration() 函数和ggplot2包绘制LR模型和RF模型的校准曲线。能够看到，与对角线相比，两个模型的校准曲线存在一些偏差，LR模型的校准曲线部分位于对角线上方（低估风险），部分位于下方（高估风险），RF模型主要位于对角线上方（低估风险）。

此外，两个模型的校准曲线置信区间宽度较大，这可能是由于我们将210例测试集分为了5组（cuts=5），每组42例患者，样本量较小。

考虑到使用ggplot2包绘制的校准曲线置信区间比较宽，比较杂乱，我们直接使用R最基础的plot()函数重新绘制四种模型的校准曲线，不展示置信区间，这样比较简洁，便于区分（见下图）。

B. Calibration Curves in the testset

我们再来看一下Brier评分的结果，Brier评分=∑(Y-P)2/N，其中Y为实际观测概率，P为模型预测概率，N为总样本量。Brier评分取值范围0～1，Brier评分值越小，校准度越高。能够看到，四个模型的Brier评分都比较小，没有超过0.05，其中LR模型的Brier评分最小。

4.4 临床实用性

使用dca()函数绘制DCA曲线，评价四个模型的临床实用性，即临床净获益。Vickers等2006年首次介绍了DCA曲线，并提供了使用R语言绘制DCA曲线的 dca() 函代码下载链接（https://www.mskcc.org/departments/epidemiology-biostatistics/biostatistics/decision-curve-analysis） [9] 。

DCA曲线横坐标是判断恶性/良性的风险阈值（0~1），纵坐标为不同阈值对应的临床净获益（net benifit）。主要比较了根据四种模型划分恶性/良性患者（针对性干预），相比于把所有患者都看作恶性实施干预（ALL曲线）和所有患者都不干预（None曲线），是否有临床净获益。

临床净获益的计算公式为：

其中，TP和FP分别为根据某一阈值进行分类时的真阳性率和假阳性率，w为该阈值的OR值，即

N为样本量。

能够看到，当风险阈值范围在0~0.9左右时，四种模型的临床净获益均高于ALL曲线和None曲线，能够取得临床净获益的阈值范围还是比较大的，但应该注意的是，随着阈值增大，四种模型的临床净获益也在减小。

综上，我们建立了四种机器学习乳腺癌风险预测模型，而且在测试集从区分度、校准度和临床实用性三个角度进行了全面的评价。这些结果是不是足够写一篇期刊论文了呢，哈哈哈！

参考文献

[1] WESSLER B S, LAI YH L, KRAMER W, et al. Clinical Prediction Models for Cardiovascular Disease: Tufts Predictive Analytics and Comparative Effectiveness Clinical Prediction Model Database [J]. Circulation Cardiovascular quality and outcomes, 2015, 8(4): 368-75.

[2] STAFFORD I S, GOSINK M M, MOSSOTTO E, et al. A Systematic Review of Artificial Intelligence and Machine Learning Applications to Inflammatory Bowel Disease, with Practical Guidelines for Interpretation [J]. Inflammatory bowel diseases, 2022.

[3] ALBA A C, AGORITSAS T, WALSH M, et al. Discrimination and Calibration of Clinical Prediction Models: Users’ Guides to the Medical Literature [J]. Journal of the American Medical Association, 2017, 318(14): 1377-84.

[4] FITZGERALD M, SAVILLE B R, LEWIS R J. Decision curve analysis [J]. Journal of the American Medical Association, 2015, 313(4): 409-10.

[5] VICKERS A J, VAN CALSTER B, STEYERBERG E W. Net benefit approaches to the evaluation of prediction models, molecular markers, and diagnostic tests [J]. Bmj, 2016, 352: i6.

[6] KERR K F, BROWN M D, ZHU K, et al. Assessing the Clinical Impact of Risk Prediction Models With Decision Curves: Guidance for Correct Interpretation and Appropriate Use [J]. Journal of Clinical Oncology, 2016, 34(21): 2534-40.

[7] LOCALIO A R, GOODMAN S. Beyond the usual prediction accuracy metrics: reporting results for clinical decision making [J]. Annals of Internal Medicine, 2012, 157(4): 294-5.

[8] MOONS K G, ALTMAN D G, REITSMA J B, et al. Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis (TRIPOD): explanation and elaboration [J]. Ann Intern Med, 2015, 162(1): W1-73.

[9] VICKERS A J, ELKIN E B. Decision curve analysis: a novel method for evaluating prediction models [J]. Medical Decision Making, 2006, 26(6): 565-74.

bmj是什么机器机器学习临床预测模型的全面评价：以乳腺癌风险预测为例

相关推荐

作者介绍

聚慕医疗

热门文章

切换注册登录

切换登录注册