一、 课题背景及意义(含国内外研究现状综述)
生成式对抗网络(GAN, Generative Adversarial Networks)[1]是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。
Deepfake假脸视频技术是基于深度学习网络,利用生成对抗网络(Generative Adversarial Network,GAN),学习到目标视频中人脸的深层次特征,从而更精确地将目标人脸替换为源视频人脸,并且能够同步人脸的表情以及说话的口型。Deepfake假脸视频作为现今换脸技术中效果最为逼真且操作简单的技术,已经在世界范围内引起了研究者们的关注。对Deepfake假脸视频的面部细节特征提取算法的研究,能够挖掘合成视频与原始视频的差异,可以更好地判别真假视频。
本人主要针对1、颜色直方图 2、SURF 3、错误级别分析(Error level analysis,ELA)三种特征进行提取分析。
1、颜色模型:RGB,HSV,Lab。OpenCv-Python中都有函数可以实现。
2、SURF。SURF(Speeded Up Robust Features) 加速鲁棒特征。正如其名,它是加速版本的 SIFT(Scale-invariant feature transform) 尺度不变特征转换。
3、错误级别分析(Error level analysis,ELA)。通过检测特定压缩比率重新绘制图片后造成的误差分布,可用于识别JPEG图片的压缩。
支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。
SVM使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险(structural risk),是一个具有稀疏性和稳健性的分类器。SVM可以通过核方法(kernel method)进行非线性分类,是常见的核学习(kernel learning)方法之一。
SVM被提出于1964年,在二十世纪90年代后得到快速发展并衍生出一系列改进和扩展算法,在人像识别、文本分类等模式识别(pattern recognition)问题中有得到应用。1995年,Corinna Cortes和Vapnik提出了软边距的非线性SVM并将其应用于手写字符识别问题,这份研究在发表后得到了关注和引用,为SVM在各领域的应用提供了参考。
目前,有以下几种特征提取检测deepfake假脸视频的方法:
文献[2]中提出的方法是基于光流场的,计算得出的前向流量OF(f(t),f(t + 1))作为半可训练CNN(称为Flow-CNN,基于一些预先训练的网络)的输入,从而分辨deepfake假脸视频。
文献[3]中提出,采用3D头部姿势的不连续性来分辨deepfake假脸视频。具体来说,就是提取来自全脸,或仅中央脸部区域的面部标志进行评估头部姿势,即得到两个向量,两个头部方位向量的余弦距离就是头部姿势的差异,将其送入SVM分类器即可区分原始视频和假冒视频。
文献[4]中提出,利用脸部68个特征点来暴露GAN合成的假脸。具体来说,标准化的每个脸(∈R 68×2)的标志位置,将展平为一个向量(∈R 136×1),即,通过减去平均值并除以所有训练样本的标准偏差来标准化,作为分类器输入特征。使用RBF核函数进行SVM分类器训练,最终识别真假脸。而且还发现调整图像大小之后,提出的方法准确率会有所改变。
文献[5]中讲到,数字图像处理检测方法有两个主要类别:主动方法和被动方法。主动方法涉及各种图像内容的水印或指纹,并将其嵌入数字图像中。随着社交网络中使用的图像数目的上升,不可能要求都在分发前先给所有互联网上的数字图像加水印。因此,被动取证方法已成为更流行的选择。而该文献中主要应用了两种不同的方法来测试FaceForensic原始和更改后的视频数据集中的情感的质量和差异。在第一种方法中,进行均方误差(MSE)对比,得出结论:原始视频和更改后的视频之间的情感差异清晰明显;在第二种方法中,提出了一种熵值运算的算法,计算由帧直方图生成的熵值,进行真假视频测试:与原始视频的值相比,更改后的视频的熵值降低了,而且,原始帧的直方图具有重尾分布,而在帧改变的情况下:由于图像垂直和水平边缘的值极小,直方图更加清晰。
文献[6]提出两步并行算法,这个算法其中一个组成部分就是递归神经网络,它将问题中的图像分成小块(patch),然后逐个像素地去观察这些小块。神经网络已经在成千上万张深度伪造以及真实图像中进行了训练,因此它已经学会了如何在单个像素级别中凸显伪造痕迹。Roy-Chowdhury表示,图像被篡改部分周围的边界往往包含着操作的痕迹。图像在被插入物体时,边界区域往往具有一定的特征。算法的另一部分就是通过一系列编码解码过滤器传递整个图像。从数学意义上讲,这些过滤器能够使算法在更大、更全面的层次上考虑整个图像的情况。然后,这个算法就会把从逐个像素输出的结果和更高层次的编码滤波器分析结果进行比对。 当这些并行分析在图像的同一区域触发红色标记时,就会被标记为“可能是DeepFake”。
以上几个文献中记录的便是是目前已有的我了解到的deepfake检测技术和算法。本人拟研究方向如下:
从颜色直方图、SURF、ELA三个方面进行特征提取,然后实验选择合适的核函数设计SVM分类器,并行输入特征值进行训练、验证和测试,进行分类。如果时间和能力允许的话,将仿照文献[6],对三种方式的分类结果进行比较,三者都表明有可能是假脸图像则判定为假脸,有重叠部分则判定为修改部分。
|
二、 课题研究主要内容及研究基础
本课题题目为“针对Deepfake假脸视频面部细节特征的提取算法”,主要就是了解deepfake技术,学习并实现对其面部特征的提取算法。
本课题研究的内容主要包括以下几个方面:
1.调查研究GAN的技术特点和国内外研究现状。
2.阅读文献了解Deepfake的原理,特点,实现方法等相关知识。
3..先对三个数据库进行人脸提取,即图片中提取人脸面部,视频进行分帧存图,图片进行人脸提取。
4.然后对GAN生成的假脸,对Deepfake假脸视频进行面部细节特征提取算法研究。
研究基础是针对以下三种特征:
1、颜色直方图。
RGB颜色空间有(红red 绿green 蓝blue)三原色:取值范围都是:[0,255],[0,255],[0,255]。
HSV 是为了数字化图像提出来了,不能很好的表示人眼解释图像过程。H (Hue)色相:[0,360];S (Saturation)饱和度,即色彩纯净度,0饱和度为白色;V (Value/Brightness):明度 0明度为纯黑色。在OpenCV中,颜色范围:H = [0,179];S = [0,255];V = [0,255]
Lab:颜色之间的欧式距离有具体含义–距离越大,人眼感官两种颜色差距越远。L 通道:像素亮度,上白下黑 中间灰;a 通道:左绿 右红;b 通道:一端纯蓝,一端纯黄
2、SURF
它善于处理具有模糊和旋转的图像,但是不善于处理视角变化和光照变化。在SIFT中使用高斯微分 DoG(Difference of Gaussian) 对高斯拉普拉斯算子 LoG(Laplacian of Gaussian) 进行近似,而在SURF中使用盒子滤波器 Box Filter 对 LoG 进行近似,这样就可以使用积分图像了(计算图像中某个窗口内所有像素和时,计算量的大小与窗口大小无关)。总之,SURF最大的特点在于采用了 Haar特征 以及 积分图像 的概念,大大加快了程序的运行效率。
3、错误级别分析(Error level analysis,ELA)
错误级别分析可以识别出一幅图片不同压缩率的地方。JPEG图像全图应该大约是相同的压缩率。如果图片的某一部分有非常突出的错误压缩率,则它可能被数字化更改过。
|
五、 参考文献
[1] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Advances in neural information processing systems. 2014: 2672-2680.
[2] Amerini I, Galteri L, Caldelli R, et al. Deepfake Video Detection through Optical Flow Based CNN[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops. 2019: 0-0.
[3] Yang X, Li Y, Lyu S. Exposing deep fakes using inconsistent head poses[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 8261-8265.
[4] Yang X, Li Y, Qi H, et al. Exposing GAN-synthesized Faces Using Landmark Locations[J]. arXiv preprint arXiv:1904.00167, 2019.
[5] Anwar S, Milanova M, Anwer M, et al. Perceptual Judgments to Detect Computer Generated Forged Faces in Social Media[C]//IAPR Workshop on Multimodal Pattern Recognition of Social Signals in Human-Computer Interaction. Springer, Cham, 2018: 38-48.
[6] Bappy J H , Simons C , Nataraj L , et al. Hybrid LSTM and Encoder-Decoder Architecture for Detection of Image Forgeries[J]. IEEE Transactions on Image Processing, 2019:1-1.
[7] 娄强. 颜色直方图识别新技术研究[D]. 天津大学, 2007.
[8] BAY H. SURF : Speeded Up Robust Features[J]. Computer Vision & Image Understanding, 2006, 110(3):404-417.
[9] Warif N B A , Idris M Y I , Wahab A W A , et al. An evaluation of Error Level Analysis in image forensics[C]// 2015 5th IEEE International Conference on System Engineering and Technology (ICSET). IEEE, 2015.
[10] Jeronymo D C , Borges Y C C , Coelho L D S . Image Forgery Detection by Semi-Automatic Wavelet Soft-Thresholding with Error Level Analysis[J]. Expert Systems with Applications, 2017:S0957417417303664.
[11] 张萍,王琳,游星.基于SVM分类的边缘提取算法.成都理工大学学报:自然科学版,2017,44(2):247-252.
|