蛋白质亚细胞的定位预测不仅是研究蛋白质结构和功能的重要基础,还对了解某些疾病的发病机理、药物设计与发现具有重要意义。然而,如何利用机器学习精准预测蛋白质亚细胞的位置一直是一项具有挑战性的科学难题。针对这一问题,提出了一种基于聚类与特征融合的蛋白质亚细胞定位方法。首先将自相关系数法和熵密度法引入蛋白质特征表达模型的构建并在传统的 Pseaac( Pseudo- amino Acid Composition)的基础上提出了一种改进型 Pseaac方法。为了更好地表达蛋白质序列信息,文中首先将自相关系数法、熵密度法和改进型 Pseaac进行融合,构造了一种全新的蛋白质序列表征模型;然后利用主成分分析法对融合后的特征向量进行降维,将结果输入到LibD3C集成分类器,对蛋白质亚细胞进行分类预测,并采用留一法在Gram- positiⅳve和(ram- negative数据集上进行交叉检验;最后将取得的实验结果与其他现有算法进行比较。实验结果表明,所提方法在Gram- positive和Gram- negative数据集上分别取得了99.24%和95.33%的预测准确率,说明所提方法具有科学性和有效性。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !