慢性肝病会诱发肝纤维化并进一步发展为肝硬化,最终导致肝癌的发生。肝组织活检目前仍然是评价肝纤维化程度的金标准,但是由于组织活检具有创伤性、样本误差等问题导致在临床上的应用受到限制,因此非创伤性的准确可靠的诊断指标亟需开发。贾伟教授团队与上海中医药大学刘平教授团队合作通过对两个研究队列受试者进行血清靶向定量代谢组学研究,筛选出4个代谢物指标并建立机器学习模型进行疾病诊断,相关成果于2020年6月5日在《BMC Medicine》期刊在线发表。
血清代谢物筛选及诊断模型选择
队列一纳入1006名受试者,其中504名慢乙肝患者(CLD),502例健康对照。队列二纳入390例受试者,其中300例慢乙肝患者,90例健康对照。除了失代偿性肝硬化患者,其他疾病患者均接受肝组织活检检测进行疾病分期判断。
我们采用靶向代谢组学定量测定血液样本中24种胆汁酸、42种游离脂肪酸、32种氨基酸,其中26种代谢物在CLD vs正常、肝纤维化vs肝硬化、肝纤维化不同阶段中存在显著差异。根据LASSO算法和随机森林(RF)算法共筛选出4种代谢物,分别为反式亚油酸(linoelaidic acid,C18:2,n6t)、牛磺胆酸(taurocholate,TCA)、酪氨酸(tyrosine,Tyr)和缬氨酸(valine,Val)。此外,还发现Tyr/Val比值可以进一步提高分类性能以及年龄也是区分纤维化和肝硬化以及纤维化不同程度的危险因素。4种代谢物与纤维化分期、坏死性炎症、CPA、AST、ALT、AST/ALT、PLT、FIB-4、APRI进行Spearman相关分析。四个代谢物(包括Tyr/Val)比现有临床指标与纤维化程度均呈现更强的相关性。
为了确定一个合适的分类模型,我们在队列一中采用10倍交叉验证(CV)来比较代谢物构建的RF模型和两个线性模型(logistic回归(LR)、线性判别分析(LDA))以及与临床指数、APRI、AST/ALT、FIB-4之间的诊断能力。以CV-受试者工作特征曲线(ROC)下的面积(CV- AUROC)和CV-精确率曲线(PR)下的面积(CV- AUPR)作为评价指标。结果显示,诊断区分CLD和健康组, APRI、LR、LDA和RF模型的AUROCs和AUPR都很高,但RF模型具有最强的分类性能。在诊断纤维化和肝硬化、早期肝纤维化(S0-2)与晚期肝纤维化(S3-4)上,RF模型的CV-AUROC和CV-AUPR优于其他方法。经过综合比较,基于决策树的集成学习算法RF表现出更好的分类性能。
模型的构建
模型一:诊断CLD患者与健康组
CLD患者中反式亚油酸浓度(C18:2,n6t)显著降低,而TCA、Tyr、Tyr/Val水平均高于对照组。队列一中利用这四种代谢物标志物建立RF模型进行CLD患者和NC患者诊断,采用袋外数据(out of bag, OOB)进行RF模型评估。该模型AUROC和AUPR 分别达到0.997和0.994,明显高于APRI (AUROC=0.973, p<0.001), FIB-4 (AUROC=0.848, p<0.001)和AST/ALT (AUROC=0.665, p<0.001)。其中,C18:2,n6t浓度越低、TCA浓度越高意味着CLD的风险越高。
基于OOB概率预测,采用logit函数计算模型一RF得分。瀑布图显示RF评分从NC(较低的RF得分)到CLD(较高的RF得分)有明显的上升趋势,两组间RF得分存在显著差异(p<0.001)。在训练集cutoff值为0.434时,CLD患者诊断敏感性为98.4%,特异性为99%。当RF模型中使用Youden index产生最佳临界值的敏感性和特异性优于AST/ALT、APRI和FIB-4。
模型二:区分CLD中肝纤维化患者和肝硬化患者
利用四种代谢物标志物和年龄建立RF预测模型以预测CLD肝硬化患者与非肝硬化患者。基于OOB预测,该模型AUROC为0.941,AUPR为0.87,优于APRI (AUROC=0.698, p<0.001) 、AST/ALT (AUROC=0.815, p<0.001)、FIB-4 (AUROC=0.869, p<0.001)。决策树显示Tyr/Val、酪氨酸、反式亚油酸水平越高,肝硬化风险就越高。RF模型临界值为0.01对肝硬化与纤维化有效区分时,模型敏感性为87.0%,特异性90.4%。对HBV-DNA水平、坏死性炎症程度、HBeAb、HBeAg、BMI、血小板(PLT)、肝功(如凝血酶原时间、白蛋白、直接胆红素、间接胆红素)和药物(恩替卡韦)进行校正后,RF得分依然显著 (p < 0.001),且敏感性和特异性均显著优于AST/ALT、APRI和FIB-4。
模型三:CLD中纤维化的分级
在本研究将肝纤维化0-2期归为早期纤维化(S0-2),3-4期被定义为晚期纤维化(S3-4)。根据年龄和四种代谢物标志物建立模型三用于区分早期纤维化和晚期纤维化,模型AUROC为0.918和AUPR为0.892,比APRI (AUROC=0.647, p<0.001),AST/ALT(AUROC=0.714, p<0.001),FIB-4(AUROC=0.802, p<0.001)更优。决策树显示,Tyr/Val、Tyr、年龄和TCA越高,晚期肝纤维化的风险越高。
logit诊断RF得分临界值为-0.115可将早期纤维化患者与晚期纤维化患者区分开来,该模型敏感性为86.7%,特异性为90.5%。对HBV-DNA水平、坏死性炎症程度、HBeAb、HBeAg、肝功能、血小板、BMI和药物(恩替卡韦) 进行校正后,RF得分仍有统计学意义 (p < 0.001),且敏感性和特异性均显著优于AST/ALT、APRI和FIB-4。
在独立HBV队列(队列二)中验证预测模型
队列二中的样本进行了相同的代谢组学研究,获得与队列一相似的代谢物浓度结果。对于CLD诊断,与APRI (AUROC=0.879, AUPR=0.958)、AST/ALT(AUROC=0.603, AUPR=0.849)、FIB-4 (AUROC=0.707, AUPR=0.897) 相比,构建的模型一依然具有更强分类性能,其AUROC为0.977和AUPR为0.993。此外,使用队列一中模型一的cutoff值进行分析,结果显示队列二的RF得分诊断CLD的敏感性为92.2%,特异性为94.4%。模型二区分肝硬化患者和纤维化患者的AUROC为0.844和AUPR为0.827,比APRI (AUROC=0.608, p<0.001)、AST/ALT (AUROC=0.684, p<0.001)、FIB-4 (AUROC=0.758, p<0.001)更优。使用队列一中模型二的cutoff值进行分析,模型二RF得分区分肝硬化患者和纤维化患者的敏感性为71.8%,特异性为81.6%。同样,模型三区分纤维化阶段的AUROC为0.807和AUPR为0.817,比APRI (AUROC=0.595, p<0.001)、AST/ALT (AUROC=0.667, p<0.001)、FIB-4 (AUROC=0.739, p= 0.01)更优。模型三RF得分区分纤维化S0-2期和S3-4期的敏感性为72.9%,特异性为76.1%。
此外,引入重分类改善指标(NRI)和积分判别改进(IDI)来量化模型对现有临床指标诊断的改进。对不同分类目标(健康与CLD、肝纤维化与肝硬化、早期肝纤维化与晚期肝纤维化)分析中, 与FIB-4、APRI、AST/ALT相比,RF模型的NRI和IDI均得到阳性结果,说明代谢物建立的模型具有更好的分类表现。
S0-2、S3和S4多分类诊断
除了进行二分类分析外,我们还进一步分析了筛选到的潜在标志物是否可以对CLD患者进行多分类分析。于是重新构建RF模型,分别对APRI、AST/ALT和FIB-4进行多元回归以诊断队列1中S0-2期患者、S3期患者和S4期患者。在队列一中,与APRI (AUROC=0.790, AUPR=0.658)、AST/ALT (AUROC=0.817, AUPR=0.688)、FIB-4 (AUROC=0.858, AUPR=0.774)相比,预测模型AUROC为0.944,AUPR为0.908。队列2验证集中,与APRI (AUROC=0.790, AUPR=0.608)、AST/ALT (AUROC=0.772, AUPR=0.597)、FIB-4 (AUROC=0.816, AUPR=0.699)相比,预测模型AUROC为0.841 (0.799-0.885),AUPR为0.748(0.674-0.81)。比较各模型的诊断表现,结果显示代谢物多分类模型优于其他方法。
小结
随着世界范围内CLD患病率的上升,对该病严重程度进行准确可靠评估对治疗方式选择和纵向监测越来越重要。越来越多的研究尝试开发可替代肝活检的无创CLD诊断工具,例如目前已经被广泛报道的AST/ALT、APRI和FIB-4。非侵入性评估方法方便同一个患者定期连续监测(例如每3个月或每半年),动态反映该患者的肝纤维化和肝硬化变化状况,可用于疗效监测,预后判断,更适合临床应用。本研究确定了一组代谢物标志物,包括反式亚油酸、TCA、Tyr,以及与CLD进展高度相关的Tyr/Val。本研究中,首先通过单变量、LASSO和RF分析,确定显著差异代谢物作为候选标记物,并构建了相应的RF预测模型。虽然模型在验证集中AUROC不如训练集AUROC高,依然获得了相对较好的AUROC(均为>0.8)。此外,当机器学习应用于生物医学研究时,外部验证/准确性测试下降是一个常见的事实,不过几种代谢物的AUROC和AUPR仍明显大于AST/ALT、APRI和FIB-4,表明代谢物模型具有更好的预测价值。
本研究也存在几个局限性:
(1)药物使用是本研究中的混杂因素,虽然对药物使用校正后没有改变,但仍需要更大规模的研究来进一步评估;
(2)本研究中HBV感染是CLD发生的唯一或主要原因且研究对象均为中国人,因此,对于其他病因或其他种族/民族群体还需进一步验证;
(3)除了横断面研究,还应进行纵向研究,特别是用于区分早期和晚期肝纤维化。
综上所述,我们通过靶向代谢组学分析,确定了四种代谢标志物可以准确区分CLD患者与健康者,并可区分不同阶段肝纤维化。非侵入性代谢物诊断性能优于FIB-4、AST/ALT、APRI。如果在未来的研究中得到验证,那么这种方式将有助于减少不必要的肝活检来确定患者有无显著纤维化,评估CLD进展程度。
参考文献
Guoxiang Xie, Xiaoning Wang , et al., Serum metabolite profiles are associated with the presence of advanced liver fibrosis in Chinese patients with chronic hepatitis B viral infection. BMC Medicine, (2020) 18:144. https://doi.org/10.1186/s12916-020-01595-w.
原文下载,请长按识别下方二维码
精彩推荐
1. 贾伟/李后开: “肠道菌-胆汁酸-脑”代谢轴可能参与阿尔茨海默病和肝性脑病的发病机制
2. 贾伟教授:菌群检测到干预的产业闭环迟迟未形成,有2大原因!
3. 肠·道 | 贾伟:肝病肠治?且看肠道细菌如何对肝病推波助澜!