基于“Word Pattern Frequency”特征构建HCC预测模型
2019/8/8 21:47:04 火行

    

     万人订阅,千人群聊,真科研人

     领先交流资讯平台

     星标或置顶火行公众号是不错过的最佳方式

    

     “今天的这期内容是我们火行科研Club成员创作;

     火行科研Club是一群有科研梦想的成员,非常酷的一件事!

     关注火行,与真实科研人同行”

     ——火行研究员

     ● ● ●

     乙型肝炎病毒(Hepatitis B Virus, HBV)是一种DNA病毒,其感染不仅可导致病毒性肝炎,而且还可发展为肝硬化(LC)和肝细胞癌(HCC),是最常见的肝癌诱因之一。据统计,全球有约2.57亿人感染HBV病毒,每年大约有500,000名HBV患者死于HBV相关并发症,大约10%的HBV感染者在会发展为HCC。

     2018年2月,Plos Genetic上发表了一篇利用NGS技术对慢性乙型肝炎(Chronic Hepatitis B,CHB)和HCC样本的HBV pre-S区进行测序并基于“Word PatternFrequency”特征构建HCC预警模型的研究,为探索肝炎向肝癌转化的早期诊断与预警提供了新思路。

    

     主要结果

     1. HBV基因分型B型在CHB与HCC样本中比例的分布具有异质性研究发现,约有70%的HCC样本的HBV基因分型B型比例小于30%,而仅50%的CHB样本HBV基因分型B型的比例小于30%。同样地,大约有37%的CHB样本HBV基因分型B型的比例大于70%,而仅5%的HCC样本HBV基因分型B型的比例在70%以上。随后,该研究根据HBV基因分型B型的比例对HCC和CHB样本进行分类,对于每一个划分的范围,计算HCC样本中B型比例与CHB样本中B型比例的比值,观察到当B型的比例小于0.6时,该比值高于1.0,而当B型的比例高于0.6时,该比值远小于1。

    

     2. PCoA样本聚类结果与HBV基因分型B/C型比例之间具有相关性该研究基于HBV基因组pre-S区序列的Word Pattern Frequency,计算任意样本对之间的曼哈顿距离,运用PCoA方法将样本投影到二维欧几里德空间,观察PCoA样本聚类结果与HBV基因分型B型或C型比例之间的关系。下图中采用不同颜色的点来对应于样本B和C型的比例,其中红色表示该样本HBV基因分型B型比例为100%,蓝色表示该样本HBV基因分型C型比例为100%,中间颜色表示介于两者之间。研究发现,样本中HBV基因分型B型的比例与第一主坐标的值高度相关,随着第一主坐标的值增加而增加,两者的Pearson相关系数(PCC)高达0.97。相比CHB样本,HCC样本在PCoA图上具有更广泛的分布,且比CHB样本更多样化。第二主坐标可能与HCC的状态相关,其值越高,表明患HCC的概率越高。尽管大多数CHB样本的第二主坐标值与参考序列的值相似,但对于HCC样本,仍有许多样本具有更高的第二主坐标值。为了更清楚地看到这个模式,该研究将第二主坐标进一步分为5个区间,对每个区间计算CHB和HCC样本的比例,发现当第二主坐标值小于-0.1时,CHB样本比例占主要优势,而随着第二主坐标值的增加,HCC样本的比例增加。当第二主坐标大于0时,CHB样本的比例为0。

    

     层次聚类结果显示,样本主要分为两大类(Cluster I和Cluster II):Cluster I包含44个样本,其中38个样本为B型,Cluster II包含95个样本,其中94个样本为C型。统计分析发现,聚类类别与基因型分型之间具有显著差异(p值= 2.2e-16,χ2-检验)。其中,101个(76HCC + 25CHB)C型样本中有6个样本(HCC1,HCC13,HCC83,HCC84,HCC88和HCC102)聚到了Cluster I中,它们各自对应的HBV基因分型B型的比例为0.49,0.49,0.18,0.27,0.14以及0.29。而在38个(18HCC + 20CHB)B型样本中仅有一个样本(CHB60)聚到了Cluster II,其HBV基因分型B型的比例为0.59。在Cluster I中共包含两个子类Cluster Ia与Cluster Ib,其中Cluster Ia中大部分都是CHB样本,Cluster Ib中同时包含CHB与HCC样本。同样,在Cluster II中也存在两个子类Cluster IIa与Cluster IIb,Cluster IIa主要由CHB样本组成,而HCC样本大部分都与Cluster IIa的距离较远。

    

     3. HCC预测模型构建及验证该研究采用K-近邻法和SVM两种方法,基于HBV pre-S区序列的Word Pattern Frequency向量来构建HCC预测模型。对于KNN模型,不同k值的训练集交叉检验AUC均值基本相同,均在0.88附近。验证集AUC值随着k的递增略有增加,当k=2时AUC为0.62,k为6至8时,AUC为0.67。对于SVM模型,训练集交叉检验AUC均值随着k值的递增略有增加,当k=2时AUC为0.86,k=7时AUC为0.93。在独立验证集中,当k=3时AUC值最大为0.77,k=5至8时AUC为0.7,而k=2时AUC仅为0.65。研究分析当k=3时,SVM模型的良好性能可能是由于相对较少数量的学习样本,使得具有较少Word Pattern的SVM模型更加稳定。

     4. 样本Read数高于特定值时模型具有稳定的预测准确率该研究通过对每一个样本随机抽取N条Read,采用相同模型构建程序进行AUC值计算。其中,N个数从500至4000,步长为500。对于SVM模型,当样本Read数大于3000时,平均AUC值趋于稳定。而对于相同Read数,AUC均值随着k值的递增而增加。

    

     KNN模型中观察到类似的结果,区别在于当样本Read数大于1500时,平均AUC值趋于稳定。且对于同一个Read数及k值,SVM模型的AUC均值高于KNN模型。

    

     综上所述,该研究采用NGS技术对CHB和HCC样本的pre-S区进行测序,开发了基于Word Pattern Frequency的方法来研究序列的多样性,构建的SVM模型具有较好的预测HCC效能,未来可能作为HCC的辅助诊断指标用于预测HCC的发生。

     作者简介

     沐倾,女,从事生物信息学方向,现就职于东方肝胆外科医院。

     火行科研Club创始成员。

     郑重声明:

     申请转载\授权火行文章,请在公众号后台留言。

     未经授权,不得转载,违者将追究法律责任!

     本公众号由北京市盈科律师事务所 胡瀚文律师 提供法律支持。

     欢迎转发朋友圈,留下“在看”支持火行!

     - END -

    

     点击图片即可阅读

    

    

     交流我们是认真的

     NSFC交流群,后台回复“基金加群”获取加群通道,目前群1-3满员,群4,5热聊中。

    

    

    

     你在看不

    

    

    http://weixin.100md.com
返回 火行 返回首页 返回百拇医药