
摘要
丙型肝炎病毒(HCV)可导致多种威胁人类生命的疾病,包括肝硬化、慢性肝炎、纤维化和肝细胞癌(HCC)。对人和丙型肝炎病毒之间蛋白质-蛋白质相互作用的计算研究可以促进抗病毒药物在丙型肝炎病毒治疗中的发现,并可能优化丙型肝炎病毒感染的治疗程序。在这一分析中,我们通过结合假性氨基酸组成产生的特征构建了HCV与人之间蛋白质相互作用的预测模型,然后在两个水平上进行预测:类别和特征。简而言之,首先使用额外的树进行特征选择,然后使用支持向量机建立分类模型。然后,通过比较三种集成学习算法,即随机森林算法、Adboost算法和XgBoost算法,选择出最适合每个类别和每个特征的集成学习算法。根据我们的结果,在这四种类型中,基于轮廓的特征更适合于建立预测模型。在独立数据集上,XgBoost算法构建的模型的AUC值可达92.66%。在这17个特征中,基于距离的残差、基于物理化学距离变换和基于剖面的物理化学距离变换的表现要好于基于距离的残差、物理化学距离变换和基于剖面的物理化学距离变换。在独立数据集上,基于轮廓的物化距离变换构建的Adboost分类器的AUC值达到93.74%。综上所述,我们在本研究中提出了一个更好的模型,提高了对人和HCV之间蛋白-蛋白相互作用的预测能力,为今后进一步开展HCV相关疾病的实验研究提供了实际参考。
结论
近年来,基于计算方法的病毒与宿主相互作用的研究受到越来越多的关注。寻找合适的特征表示方法和机器学习算法是所有计算方法的基础。本文根据PSE-in-One生成的特征,对多种机器学习算法进行了比较,最终找到了两个更适合丙型肝炎病毒-人类蛋白-蛋白质相互作用的预测模型。我们还采用该模型预测了四种可能与HCV NS4B相互作用的潜在人类蛋白。虽然这两种模式都能产生很好的效果,但仍有很多问题需要进一步改进。首先,我们没有分析不同功能组合的效果。在未来的研究中,我们将使用像LASSO这样的组特征选择策略来构建更令人满意的预测模型。其次,我们没有考虑丙型肝炎病毒蛋白本身之间的相互作用。例如,NS5A和核心蛋白之间的相互作用可以促进病毒在脂质附近的组装,这也将在我们未来的工作中解决。最后,基于所提出的模型构建一个用于HCV-宿主蛋白-蛋白质相互作用的网络服务器,对于对病毒-宿主相互作用感兴趣的生物学家来说将是一个更有用的工具。
引用
Xin Liu, Liang Wang, Cheng-Hao Liang, Ya-Ping Lu, Ting Yang & Xiao Zhang
(2021): An enhanced methodology for predicting protein-protein interactions between human
and hepatitis C virus via ensemble learning algorithms, Journal of Biomolecular Structure and
Dynamics, DOI: 10.1080/07391102.2021.1946429
文献下载请点击下方链接: