模式识别 K近邻法
目录
模式识别 K近邻法 1
一、最近邻、k近邻算法介绍 2
1.1 介绍 2
1.2 近邻法的形式化表示 2
(1)最近邻 2
(2)k近邻 3
二、实验数据集介绍 3
2.1 Iris数据集介绍 3
2.2 Sonar数据集介绍 4
三、实验设置 4
四、实验结果展示与分析 6
4.1 Iris数据集分类结果分析 6
4.2 sonar数据集分类结果分析 9
五、Fisher与k近邻(最近邻)对比 11
六、Python代码 13
5.1 iris数据集 13
5.2 sonar数据集(代码通用,与iris相差无几) 18
一、最近邻、k近邻算法介绍
1.1 介绍
以每个训练样本为一个子类,不同类的两个样本之间用最小距离作为分类准则。显然这时就没有必要事先用所有两两样本间的分类面构造出分段线性分类面,而是可以在拿到一个待分类的样本后,通过判断它到两类样本的距直来进行决策。这就是最近邻法。
最近邻法就是源于这样一种直观的想法:对于一个新样本,把它逐一与已知样本比较,找出距离新样本最近的已知样本,该样本的类别作为新样本的类别。
在很多情况下,把决策建立在一个最近的样本上有一定风险,当数据分布复杂或数据中噪声严重时尤其如此。一种很自然的改进就是引人投票机制选择前若干个离新样本最近的已知样本,用它们的类别投票来决定新样本的类别,这种方法称作k-近邻法,因为人们习惯上把参加投票的近邻样本的个数记作k。显然,最近邻法可以看作是k近邻法的特例。