题 目 基于临床与基因图谱的结肠癌基因标签提取
摘 要
由于基因间的调控和相互作用表现为“功能基因组合”形式,基因的功能与作用是集体作用的结果,而非单个基因单独作用的结果,表现在分类特征对样本的分类能力方面就是以特征集合的形式整体体现出来的。根据这个生物学知识, 本文考察由多个基因构成的基因簇作为区分正常人和癌症患者的分类因素,利用独立成分分析(ICA)技术对已给出的基因表达采样数据进行分析,最大程度地降低基因之间强烈的相互影响,从而获得对判断是否患有肿瘤或者癌症的最有直接关系但数目较少的潜在因素,即基因簇信息。随后,我们采用了支持向量机(SVM) 依据提取出的潜在因素(基因簇)进行分类,筛选出致病的癌症基因15个。另外, 我们还运用基于灵敏度的支持向量机对基因本身进行分类,而不是基于基因簇。利用得到的结果与基于独立成分分析的方法所提取的基因提供比较。发现所筛选的基因簇中有三个基因与灵敏度支持向量机方法筛选的基因相同。
对预处理过后的1908个基因,通过独立成分分析提取出61个基因簇,这些基因簇中含有与分类无关的基因簇,即噪声,以及与分类相关的分类因素5个。事实上,为了能够得到最好的分类因素,我们将问题转化为一类信号稀疏表示的优化问题。此外,为了进一步进行基因分类,我们利用含噪声的ICA和带松弛因子的非光滑优化模型研究带有噪声的基因图谱信息。通过含噪声模型与不含噪声模型进行对比,说明含噪模型的优势。
最后,借助于条件概率模型,对病人数据进行了筛选,将临床结论与基因图谱相结合,通过已有文献以及生物信息网站所获取资料发现,所筛选的大部分基因标签与当今临床医学所得到的直肠癌研究结论相吻合。
关键词:含噪 基因簇 独立成分分析 支持向量机 非光滑优化模型 临床 基因标签
目录
一、问题的重述
二、模型假设
三、数据预处理
四、基于ICA 技术确定分类因素
五、基于灵敏度的SVM 的基因标签提取
六、基于ICA与SVM的基因标签提取
七、基于噪声模型的基因标签提取
八、结合临床结论的数学模型
九、模型问题及改进