蛋白质作为生命现象的物质基础之一,是构成一切细胞组织结构的重要组成成分,参与了生物体内许多方面的重要生命过程,是生命活动的重要承担者。虽然说脱氧核糖核酸(DNA)是遗传信息的载体,但是遗传信息的复制、转录和表达都需要依靠各种蛋白质之间的协作才能完成。蛋白质组学较之于基因组学,对于生命现象的解释更直接、更准确,近年得到了快速发展,并受到世界各国学者的高度关注。在后基因组时代,随着蛋白质测序技术的飞速发展,蛋白质序列的数据呈爆炸性增长,目前在著名的蛋白质数据库uniprotkb中,已经存有超过120,243,849条蛋白质的一级序列信息(截止到2018-07-16),并继续保持快速增长的趋势。然而,对于构成基因家族的成组的序列来说,我们要建立多个序列之间的关系,这样才能揭示整个基因家族的特征。多序列比对在阐明一组相关序列的重要生物学模式方面起着相当重要的作用。
多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,以便对一个基因家族的特征有一个简明扼要的了解。与双序列比对一样,多序列比对的方法建立在某个数学或生物学模型之上。多序列比对的目标是使得参与比对的序列中有尽可能多的列具有相同的字符,即,使得相同残基的位点位于同一列,这样以便于发现不同的序列之间的相似部分,从而推断它们在结构和功能上的相似关系,主要用于分子进化关系,预测蛋白质的二级结构和三级结构、估计蛋白质折叠类型的总数,基因组序列分析等。 CUDA(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台。CUDA是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。开发人员可以使用C语言来为CUDA架构编写程序,C语言是应用最广泛的一种高级编程语言。所编写出的程序可以在支持CUDA的处理器上以超高性能运行。CUDA3.0已经开始支持C++和FORTRAN。
毕业设计基本要求:
研究和分析运用CUDA并行编程模型,实现高通量并行多序列比对的相关算法,使用C++或FORTRAN语言加以实现,并对已有其他算法进行性能比较与分析。
知识体系要求
(1) 开发工具及语言的运用;
(2) 算法设计知识;
|
[1]多序列比对及蛋白质功能及结构预测(OL):https://wenku.baidu.com/view/860942202f60ddccda38a05e.html
[2]GonzálezDomínguez Jorge. Fast and Accurate Multiple Sequence Alignment with MSAProbs-MPI[J].Methods in molecular biology. 2021, 2231:39-47.
[3]Saha Indrajit, Ghosh Nimisha, Maity Debasree et al. Inferring the genetic variability in Indian SARS-CoV-2 genomes using consensus of multiple sequence alignment techniques[J] Infection, Genetics and Evolution, 2020, 85
[4]Morisse Pierre, Marchet Camille, Limasset Antoine et al. Scalable long read self-correction and assembly polishing with multiple sequence alignment[J] Scientific Reports, 2021, 11(1)
[5]Michael Nute, Ehsan Saleh, Tandy Warnow Evaluating Statistical Multiple Sequence Alignment in Comparison to Other Alignment Methods on Protein Data Sets[J] Systematic Biology, 2019, 68(3)
[6]Garriga Edgar, Di Tommaso Paolo, Magis Cedrik, et al. Multiple Sequence Alignment Computation Using the T-Coffee Regressive Algorithm Implementation[J].Methods in molecular biology. 2021, 2231:89-97.
[7]匡芳君,张思扬,刘传才.基于多策略人工蜂群的多序列比对算法[J].控制与决策,2018,33(11):1990-1996.
[8]董改芳,付学良,李宏慧.多序列星比对算法的改进及其在Spark中的并行化研究[J].计算机科学,2017,44(10):55-58+84.
[9] [美]托尔加·索亚塔(Tolga Soyata).基于CUDA的GPU并行程序开发指南[M].机械工业出版社,2019.7
|
(1)2021.1.5 ---- 2021. 2.28 查阅资料, 撰写开题报告
(2)2021.3.1 ---- 2021.3.15 需求分析,熟悉开发工具
(3)2021.3.15 ---- 2021.3.20 概要设计
(4)2021.3.21 ---- 2021.4.1 详细设计
(5)2021.4.2 ---- 2021.5.1 编写代码及设计,程序调试
(6)2021.5.2 ---- 2021.5.5 毕业论文资料收集,撰写论文提纲
(7)2021.5.6 ---- 2021.5.31 整理设计文档, 撰写毕业论文
(9)2021.6.1 ---- 2021.6.9 论文修改、系统改进、答辩准备及答辩
|