中华养生保健 ›› 2024, Vol. 42 ›› Issue (19): 173-177.
梁昱, 李俊林*
LIANG Yu, LI Jun-Lin*
摘要: 目的 探索人工智能肺结节筛查系统中不同分类模型对其效能表现的影响,进而筛选出适合临床使用的分类模型。方法 选择2018年12月—2019年4月在内蒙古自治区人民医院行胸部CT平扫的117例患者作为研究对象。首先,由两位超过15年胸部CT阅片经验的专家制订本研究的金标准,共标注563个肺结节。利用AI肺结节筛查系统进行检测,分别记录配置有不同分类模型的AI系统检测到的肺结节数。模型1是在深度神经网络基础上自主研发的算法,模型2是在模型1基础上优化后减少假阳性结节的算法,模型3是模型2基础上优化增强磨玻璃结节敏感性的算法。通过与金标准比较,分析不同分类模型的AI检测到的真阳性结节(TP)、假阳性结节(FP)和假阴性结节(FN)的数量,计算比较相应的敏感性、FP / TP值、假阳性率(假阳性结节数/CT)、精确率(Precision)、召回率(Recall)、调和平均值(F1值),探索最适合临床工作的AI肺结节筛查系统。卡方检验用于比率指标的统计分析,P<0.05表示差异有统计学意义。结果 AI模型1检测到1 490个结节,包含505个TP和985个FP,FN为58个,检测敏感度为89.7%,假阳性率为8.42FP/CT,FP/TP值为1.95,精确率为33.89%,召回率和F1值分别为89.70%和49.20%。相比之下,AI模型2检测到的总结节显著减少,降至1 285个,其中TP为500个,FP为785个,FN为63个,检测敏感度为88.81%,假阳性率为6.71FP/CT、FP/TP值为1.57,精确率为40.00%,召回率和F1值分别为88.81%和55.16%。同时,利用AI模型3进行肺结节检测时,1 240个结节被检测到,其中包含493个TP和747个FP,70个FN,检测敏感度为87.57%,假阳性率为6.38FP/CT,FP/TP值为1.52,精确率为39.75%,召回率和F1值分别为87.57%和55.68%。可见3个AI模型在肺结节检测方面均具备较高的敏感性,但模型2和模型3在降低假阳性率和提高精确率方面表现更优。模型2在减少假阴性(漏诊)方面略优于模型3,同时保持了较低的假阳性率。结论 比较分析多项模型检测指标发现,模型2的综合表现最佳,是应用于临床进行肺结节筛查的最佳选择。
中图分类号: