题 目 基于神经网络MIV 值分析的肿瘤基因信息提取
摘 要:
本文主要运用统计学及数据挖掘相关知识,以结肠癌基因表达图谱为研究对象,综合运用 GB 指数、BP 神经网络、小波变换和贝叶斯等方法对问题给出求解的过程和结果。
问题一采用 GB 综合指数对无关基因进行筛选。首先计算各个基因的Gini 指数和
Bhattacharyya 距离,其次合理定位阈值,分别在Gini 指数排序和 Bhattacharyya 距离排序中选择 300 个优势位置的基因作为备用基因,最后选择这两组备用基因的交集作为信息基因, 共 114 个。从而降低了基因维度。
问题二结合已有文献,本着创新性和有效性的思想进行基因信息提取。
Ø 首先利用基因间的强相关性进行初步冗余基因的剔除,得到了五组特征基因组;利用 BP 神经网络对这五组基因组进行错判数计算,选取错判率最低、基因子集中基因数量最少的基因特征组作为下一步研究基因子集;
Ø 其次利用平均影响值(MIV)方法来进行筛选基因,通过计算一个基因组合中每个基因的 MIV 值,每次剔除MIV 绝对值处于后 10%的基因进行基因子集的确定;
Ø 最后利用 BP 神经网络来进行 22 个基因子集的错判数计算,最终确定含有 12 个基因的子集为最优基因组合(M85079,T62947,R39209,R84411,T54303,M82919,
H43887,X12671,H08393,M26383,R36977,R87126)。
问题三将每组基因表达值看做基因信号,运用小波转换法对基因数据进行去噪,建立去噪模型。运用 MATLAB 小波工具箱对基因表达数据进行去噪处理,并运用去噪后的基因数据重新进行基因的分类、特征基因的提取。通过对比发现,去噪后的数据进行基因分类时能保留 61 个基因,比原始基因数据少 53 个,特征基因提取为 8 个。
问题四针对给定的若干信息基因,利用聚类分析原理和 Bayes 估计,通过模型建立给出探索其它未知信息基因的思想。
关键字:基因表达谱;GB 指数;MIV;BP 神经网络;小波变换;贝叶斯