人脸检测技术外文翻译译文-毕业作品网站

①作者：Do-Joon Jung, Chang-Woo Lee, Yeon-Chul Lee, Sang-Yong Bak, Jong-Bae Kim, Hyun Kang, Hang-Joon Kim.

②书名（或论文题目）：PCA-Base Real-Time Face Detection and Tracking. Jul, Phuket, Thailand,

③出版社（或刊物名称）：International Technical Conference on Circuits/Systems, Computers and Communications (ITC-CSCC'02),

摘要：这篇文章提出了复杂背景条件下，实现实时人脸检测和跟踪的一种方法。这种方法是以主要成分分析技术为基础的。为了实现人脸的检测，首先，我们要用一个肤色模型和一些动作信息(如：姿势、手势、眼色)。然后，使用PAC技术检测这些被检验的区域，从而判定人脸真正的位置。而人脸跟踪基于欧几里德（Euclidian）距离的，其中欧几里德距离在位于以前被跟踪的人脸和最近被检测的人脸之间的特征空间中。用于人脸跟踪的摄像控制器以这样的方法工作：利用平衡/倾斜（pan/tilt）平台，把被检测的人脸区域控制在屏幕的中央。这个方法还可以扩展到其他的系统中去，例如电信会议、入侵者检查系统等等。

视频信号处理有许多应用，例如鉴于通讯可视化的电信会议，为残疾人服务的唇读系统。在上面提到的许多系统中，人脸的检测喝跟踪视必不可缺的组成部分。在本文中，涉及到一些实时的人脸区域跟踪【1－3】。一般来说，根据跟踪角度的不同，可以把跟踪方法分为两类。有一部分人把人脸跟踪分为基于识别的跟踪喝基于动作的跟踪，而其他一部分人则把人脸跟踪分为基于边缘的跟踪和基于区域的跟踪【4】。

基于识别的跟踪是真正地以对象识别技术为基础的，而跟踪系统的性能是受到识别方法的效率的限制。基于动作的跟踪是依赖于动作检测技术，且该技术可以被分成视频流（optical flow）的（检测）方法和动作—能量（motion－energy）的（检测）方法。

基于边缘的（跟踪）方法用于跟踪一幅图像序列的边缘，而这些边缘通常是主要对象的边界线。然而，因为被跟踪的对象必须在色彩和光照条件下显示出明显的边缘变化，所以这些方法会遭遇到彩色和光照的变化。此外，当一幅图像的背景有很明显的边缘时，（跟踪方法）很难提供可靠的（跟踪）结果。当前很多的文献都涉及到的这类方法时源于Kass et al.在蛇形汇率波动【5】的成就。因为视频情景是从包含了多种多样噪音的实时摄像机中获得的，因此许多系统很难得到可靠的人脸跟踪结果。许多最新的人脸跟踪的研究都遇到了最在背景噪音的问题，且研究都倾向于跟踪未经证实的人脸，例如臂和手。

在本文中，我们提出了一种基于PCA的实时人脸检测和跟踪方法，该方法是利用一个如图1所示的活动摄像机来检测和识别人脸的。这种方法由两大步骤构成：人脸检测和人脸跟踪。利用两副连续的帧，首先检验人脸的候选区域，并利用PCA技术来判定真正的人脸区域。然后，利用特征技术（eigen－technique）跟踪被证实的人脸。

在这一部分中，将介绍本文提及到的方法中的用于检测人脸的技术。为了改进人脸检测的精确性，我们把诸如肤色模型【1，6】和PCA【7，8】这些已经发表的技术结合起来。

检测肤色像素提供了一种检测和跟踪人脸的可靠方法。因为通过许多视频摄像机得到的一幅RGB图像不仅包含色彩还包含亮度，所以这个色彩空间不是检测肤色像素【1，6】的最佳色彩图像。通过亮度区分一个彩色像素的三个成分，可以移动亮度。人脸的色彩分布是在一个小的彩色的色彩空间中成群的，且可以通过一个2维的高斯分部来近似。因此，通过一个2维高斯模型可以近似这个肤色模型，其中平均值和变化如下：

参数	参数值
μr	117.588
μg	79.064
rr	24.132
gr	-10.085
rg	-10.085
gg	8.748

一旦建好了肤色模型，一个定位人脸的简单方法是匹配输入图像来寻找图像中人脸的色彩群。原始图像的每一个像素被转变为彩色的色彩空间，然后与该肤色模型的分布比较。

虽然肤色在特征的应用种非常广泛，但是当肤色同时出现在背景区域和人的皮肤区域时，肤色就不适合于人脸检测了。利用动作信息可以有效地去除这个缺点。为了精确，在肤色分类后，仅考虑包含动作的肤色区域。结果，结合肤色模型的动作信息导出了一幅包含情景（人脸区域）和背景（非人脸区域）的二进制图像。这幅二进制图像定义为

(3)

其中It(x,y)和It-1(x,y)分别是当前帧和前面那帧中像素（x,y）的亮度。St是当前帧中肤色像素的集合，（斯坦）t是利用适当的阈限技术计算出的阈限值【9】。作为一个加速处理的过程，我们利用形态学（上）的操作（morpholoical operations）和连接成分分析，简化了图像Mt。

因为有许多移动的对象，所以按序跟踪人脸的主要部分是很困难的。此外，还需要检验这个移动的对象是人脸还是非人脸。我们使用特征空间中候选区域的分量向量来为人脸检验问题服务。为了减少该特征空间的维度，我们把N维的候选人脸图像投影到较低维度的特征空间，我们称之为特征空间或人脸空间【7，8】。在特征空间中，每个特征说明了人脸图像中不同的变化。

为了简述这个特征空间，假设一个图像集合I1，I2，I3，…，IM，其中每幅图像是一个N维的列向量，并以此构成人脸空间。这个训练（测试）集的平均值用A＝

来定义。用

i＝I I－A来计算每一维的零平均数，并以此构成一个新的向量。为了计算M的直交向量，其中该向量是用来最佳地描述人脸图像地分布，首先，使用C＝

ir＝YYr （4）来计算协方差矩阵Y＝[

2…

M]。虽然矩阵C是N×N维的，但是定义一个N维的特征向量和N个特征值是个难处理的问题。因此，为了计算的可行性，与其为C找出特征向量，不如我们计算[YTY]中M个特征向量vk和特征值

k，所以用u k＝

（5）来计算一个基本集合，其中k＝1，…，M。关于这M个特征向量，选定M个重要的特征向量当作它们的相应的最大特征值。对于M个训练（测试）人脸图像，特征向量W i＝[w 1，w 2，…，w M’]用w k＝u kT

i,k=1,…，M（6）来计算。

为了检验候选的人脸区域是否是真正的人脸图像，也会利用公式（6）把这个候选人脸区域投影到训练（测试）特征空间中。投影区域的检验是利用人脸类和非人脸类的检测区域内的最小距离，通过公式（7）来实现的。Min（||Wkcandidate－Wface||,||Wkcandidate－Wnonface||），（7）其中Wkcandidate是训练（测试）特征空间中对k个候选人脸区域，且Wface，Wnonface分别是训练(测试)特征空间中人脸类和非人脸类的中心坐标，而||×||表示特征空间中的欧几里德距离（Euclidean）

在最新的人脸检测中，通过在特征空间中使用一个距离度量标准来定义图像序列中下一幅图像中被跟踪的人脸。为了跟踪人脸，位于被跟踪人脸的特征向量和K个最近被检测的人脸之间的欧几里德距离是用obj＝argkmin||Wold－Wk||，k＝1，…，K，（8）来计算的。

在定义了人脸区域后，位于被检测人脸区域的中心和屏幕中心之间的距离用distt（face，screen）＝Facet（x，y）－Screen（height/2，width/2），（9）来计算，其中Facet（x，y）

是时间t内被检测人脸区域的中心，Screen（height/2，width/2）是屏幕的中心区域。使用这个距离向量，就能控制摄像机中定位和平衡/倾斜的持续时间。摄像机控制器是在这样的方式下工作的：通过控制活动摄像机的平和/倾斜平台把被检测的人脸区域保持在屏幕的中央。在表2自己品母国。参数表示的是活动摄像机的控制。用伪代码来表示平衡/倾斜处理的持续时间和摄像机的定位。

实验环境是一个存在可能的噪音和光照条件变化的实验室。在实验时使用的摄像机是Mitsubish ＣＣＤ－300的彩色视频摄像机，且安装了SPT－2410平衡/倾斜平台，其中平衡和倾斜的速度分别是6.2度每秒和4.2度每秒。被提议的这种方法在PentiumII－233Mhz、Windows98操作系统的PC机上测试。图2给出了这种方法的设置和界面。

被提议的方法在20个不同的测试流和由5个不同的主要方向上的13个个体所组成的训练（测试）集中进行测试。图3 给出了用来构成特征空间的部分训练（测试）图像。

图3，部分训练（测试）图像（a）正面视角（b）左面视角（c）右面视角（d）上面视角（e）下面视角

从一个图像集合的分析可以得到：实验表明人脸检验的平均正确率是94.3％。表3中，给出了该人脸区域检验为人脸的正确率和检验为非人脸的正确率。

Face verification rate=（Number of correctly faces）/（Number of images verified as true face）（10）

Non－face verification rate=（Number of correctly verified images as non－face）/（Number of images verified as non－face）（11）

在图4的（a）中，我们给出了被提议的方法在两幅输入画面的（测试）结果，（b）中给出了摄像机的位置，（c）中给出了被检测的人脸。

图4，被提议的方法的（测试）结果：（a）视频输入；（b）摄像机位置；（c）被检测的人脸。

Face	Non－Face	Total
96.5％	92％	94.3％

本文中提议了一种基于PAC的实时人脸检测和跟踪方法。被提议的这种方法是实时进行的，且执行的过程分为两大部分：人脸识别和人脸跟踪。在一个视频输入流中，首先，我们利用注入色彩、动作信息和PCA这类提示来检测人脸区域，然后，用这样的方式跟踪人脸：即通过一个安装了平衡/请求平台的活动摄像机把被检测的人脸区域保持在屏幕的中央。未来的工作是我们将进一步发展这种方法，通过从被检测的人脸区域种萃取脸部特征来为脸部活动系统服务。

②书名（或论文题目）：Multi-Modal Tracking of Faces for Video Communications(文章的第三部分)

③出版社（或刊物名称）：Proceedings of the 1997 Conference on Computer Vision and Pattern Recognition (CVPR '97),.

摘要：本文描述了一个利用多重可视化过程（multiple visual processes）的系统，该系统是用来在视频通讯和传输中实现人脸跟踪的。该系统基于这样一个体系：一个监督器（supervisor）在循环方式下选择和激活可视化过程。可视化过程的控制可以通过每次观察伴随的确定因素来实现。实现跟踪的统一估算的混合结果可以通过每次观察时估算一个协方差矩阵来得到的。

人脸跟踪的可视化过程是用眨眼检测、规格化的色彩直方图匹配和相关性（SSD和NCC）来描述的。可视化过程的集合由提供健壮跟踪的处理状态组织起来的。人脸检测的结果被传回递归预测器（如Kalman滤波器）。预测器的输出驱动一个PD控制器平衡、倾斜、移动一个摄像机。该系统在一个150MHz的计算机工作站里，连续运行大约每秒20幅图像时，提供了健壮和准确的跟踪。

通过利用一些补充的检测过程来驱动跟踪过程，可以实现连续的跟踪操作。然后，当每个过程的结果变得不太可靠时，这个跟踪过程能为这每个过程提供一些参考。这样的综合互助能大大改善跟踪的可靠性和准确性。下面的内容描述了使用眨眼、规格化色彩（肤色）和相关性来跟踪人脸的过程。

人总是定时性地眨眼来保持他眼睛的湿润。眨眼是自然而迅速的。许多人在眨眼的时候都没有意识到自己眨眼了。眨眼的事实使得眨眼可以从情景内其他的动作中区分出来。我们已经发现：通过检测眨眼，可以方便、可靠地检测出人脸的存在。眼睛对称地固定在人的脸上，因此可以在检测中规格化头部的大小和方位。

眨眼的检测是以不同的连续图像为基础的。这些不同的图像一般包括头部及头部以外的一小部分边界区域。如果碰巧在两幅图像中，有一幅图像的眼睛是闭上的，那么在眼睛上的这两个小的圆形区域的差异会很显著。

这幅有差异的图像（be thresholded），且在这幅（thresholded）的图像上运行一种连接成分的算法。为每个连接的成分计算一个有限域（a bounding box）。把候选区域定为眼睛是基于该候选区域的有限域的水平和垂直大小。然后，把候选区域组成一对，并对这些候选区域的垂直位移和适当的水平距离进行检验。当这两个小的有限域的结构被检测出来时，一对眨眼的眼睛就被假定好了。（眼睛）在图像中的位置是由位于有限域间的直线中心决定的。（眼睛之间的）距离可以度量（眼睛）到人脸的距离。这样，就得到了一个窗口，该窗口的大小可以用来萃取图像中的人脸。这种用来测定人脸位置和大小的简单方法已经被证明是非常可靠的〔8〕。

两个矩形间的中点用Xb＝〔i,j〕来表示。用一个2×2的协方差矩阵来表示Cb的位置，并且，在系统设置时，把这个矩阵当做一个常量来校准。不用估算人脸的水平和垂直范围。眨眼检测的确认CFb表示：与理想原型Pblink及它的协方差Cb相比，8个参数的相似之处。这个原型是通过大量的眨眼检测和手工排除错误检测的方法来计算得到的。

色彩直方图在图像处理的应用已经十年了，特别是分割多光谱的卫星图像和医学图像。早在二十世纪九十年代，Swain和Ballard〔9〕给出的色彩直方图交集

就一种可靠的识别彩色对象的方法。但不幸的是，他们的方法对周围光源的色彩和亮度敏感。Schiele和Waibul〔8〕已经证明了：通过区分不同的亮度成分来规格化色彩向量，从而可靠地检测出皮肤。

一个亮度被规格化为色彩成分（r,g）的2维合成直方图可以从一幅图像的一些小区域（诸如皮肤小样）中计算得到。色彩成分（R,G,B）：

被规格化色彩的这幅直方图为每个规格化的色彩对（r,g）给出了大量的（occurrences）。这幅直方图必须被周期性地（re－initialised？重新初始化），这是为了补偿周围光照的变化，或不同用户的肤色差异。在我们对这种方法的早期测验中，一个合作者把他的人脸和手放在摄像机面前，以此在不到一秒钟的时间内（initialise ？初始化）这幅直方图。在我们最新的系统中，只要眨眼被确实地检测到，色彩实例就被自动地捕捉到。

一幅规格化色彩的直方图h（r,g）是基于包含N个像素的实例，它给出了一个色彩向量C(->)=(r,g)的条件概率，也给出了一幅皮肤图像中像素p（C（->）|skin）。使用贝叶斯规则，我们可以把像素变换为这个色彩向量的皮肤条件概率，p（skin|C（->））。这就允许我们构造一个概率图像，图像中每个像素用它的皮肤投影概率来代替。如图4所示。肤色概率的重心表示人脸位置的估算值。有限的矩形表示（人脸）大小的估算值。使用一般的概率论，通过对被检测的有限域和理想的宽度、长度的比较，可以计算出一个确定因素。在大量的测试结果中，通过手工选择，可以得到平均宽度、长度和协方差矩阵。

利用色彩（肤色）来检测人脸是快速和可靠的，但是不是一直都准确的。利用眨眼检测人脸是准确的，但是这要求捕捉到的图像对中有眨眼的情况。可以用相关性来完善这两种方法，同时，当头部移动时，可以保持人脸在图像中的中央。（energy）规格化的相关性跟踪表明：它在附加高斯噪音的条件下最为适合〔5〕。在人脸检测的情况下，主要噪音既不是高斯的也不是附加的。但是，当加入其他检测过程时，相关性跟踪提供了一种便宜、相对可靠且形式上可被分解的方法。

相关性跟踪从眨眼检测开始着手。相关性模板是从眼睛的估算位置得到。从合作者的动作的预期速度中可以估算每个跟踪器的搜索区域，其中合作者的动作在每一帧的像素中度量。如果帧的速率保持得相当高〔5〕，那么这个（估算）值保持在很小的范围内。每个参考模板是一个小的邻近区，W（m,n），它的大小x,y，图像P（i,j）在眨眼检测后的（initialisation初始化操作）时得到。在后来的图像中，这个参考模板被用来和图像的邻近区（i,j）进行比较，通过计算N×N的模板得到这幅图像的邻近区，且该邻近区的左上角位于（i,j）。这个系统包括利用平方差的和（SSD）和（energy）规格化的相关性（NNC）这两部分。我们发现SSD一般表示较高（superior）的结果。

通过寻找在SSD度量器中的最接近于0的位置（i, j ），可以确定目标的估算位置。通过把mask（人脸）的一般大小加的这个角落的位置（i,j）上，可以确定实际的中央位置。通过把搜索区域保持在小范围内，我们得到一个25hz的处理率。图5中的模板中，人脸的眼睛被圈出来了，以此可以得到SSD值的一个典型图。SSD值在这幅图像中被转化为CF和协方差。从每秒被转化的SSD值可以估算出检测协方差。一个明显的相关性峰值提供了一个小的协方差，而一个较大的相关性提供了具有较大延展的协方差。利用被转化的SSD的峰值，可以估算出一个确认（值）。当这种确认的度量器下降到一个有限域的下面时，跟踪的过程被暂停或（initialised重新初始化）。

图5a，根据眨眼检测中检测到的眼睛可以得到一个相关性模板；图5b，用序列中最新的图像，根据平方差的和，构造值的图。