题 目 肿瘤基因图谱信息提取和分类方法研究
摘 要:
本文讨论了肿瘤基因图谱信息提取方法,主要工作是提取结肠癌基因表达谱的特征基因信息,并利用神经网络进行分类识别。
对于问题一、二,本文采用了一种致癌基因信息提取与分类方法,该方法主要由四步构成:(1)利用 Bhattacharyya 距离法滤除无关基因;(2)采用两两冗余分析,剔除强相关冗余基因;同时,采用主成分分析方法对所选择的基因样本数据进行降维处理,得到样本的主成分量;(3)对特征提取后的基因数据采用四种神经网络(BP 神经网络及三种径向基神经网络)进行分类学习,训练获得分类网络模型;(4)采用获得的分类网络模型对测试肿瘤样本进行分类,并采用留一交叉检验法和独立检验法评估四种神经网络分类器性能。结果表明:本文所采用的特征提取方法能有效提出与肿瘤相关的信息基因,选取的特征基因子集包含9 个基因,且采用概率神经网络(PNN)的分类识别准确率(77.27%)最高。
对于问题三,采用小波去噪方法消除基因信息采集过程中的随机误差。为最大限度地消除噪声并保证原始数据信息损失最小,本文分别采用 db3、db5、sym8、
haar 等不同小波基进行去噪,通过对概率神经网络分类的结果比较可知:选择
haar 小波基对所有数据进行消噪,提取到的特征信息基因更为有效。在独立测试实验中,概率神经网络对 22 个样本数据的识别准确率为 100%。
对于问题四,本文采用信息融合的方法,利用加权评分法建立了融入生理学确定信息基因的多信源信息融合模型。通过对 PNN-WG 模型求解,验证了提出融合模型可将原有概率神经网络的分类准确性从 77.27%提高到 86.36%,达到了多源信息融合的目的。
最后,评价了本文模型和算法的优点,并给出了进一步研究的方向。关键词:肿瘤基因;特征提取;分类识别;小波去噪;信息融合