题 目A 确定肿瘤的重要基因信息
——提取基因图谱信息方法的研究
摘 要:
对于问题一,我们首先对数据进行前期的预处理,然后分别建立评分模型, 对各个基因进行打分,从而按照分数又高到低排序,然后用主成分析法,确定包含样本全部信息的基因集的基因个数,最后用因子分析的方法提取出基因中潜在的少量可以完全表达样本信息的因子,共7个,我们称之为因素。
问题二实际上就是要求我们找出能够表达全部样本的最少的基因标签的个数。我们利用REF-relief算法和支持向量机(SVM)进行选择,最后使用“留一法”对其进行误差分析,最终得到最少的基因标签为5个,分别是X63629、H06524、H08393、R39209、M26383,采用“留一法”得到最后错判的数量为6个,正确率为
90.3 %。
问题三实际上就是让我们在问题二的基础上,建立含有噪声的模型,对含噪声模型进行分析,看是否能发现噪声对分类是有帮助的。我们引入控制因子,提出对噪声的分析是有利于分类,如果控制因子选取在合理的范围并且方向也选取合适,那么可以大大降低样本错判的数量。
第四问就是让我们能够利用信息融合以及数据挖掘的方法,建立起一个分类算法的决策树,由于信息来自多个方面,因此对海量信息有效提取和挖掘是十分又必须的,终于我们得到了一个基于二叉树的基因诊断模型,该模型能有效地对样本进行分类,结果仅有1个样本错判。
目录
1 问题重述 3
2 模型假设 4
3 符号说明 4
4 问题分析 5
4.1 问题 1 分析 5
4.2 问题 2 分析 5
4.3 问题 3 分析 5
4.4 问题 4 分析 5
5 模型建立与求解 6
5.1 数据预处理 6
5.2 问题 1 模型与求解 7
5.3 问题 2 模型与求解 14
5.4 问题 3 模型与求解 16
5.5 问题 4 模型与求解 20
6 附录 27
7 参考文献 29