2021年底,小鱼的“Deepfake变脸事件”让大众正视了Deepfake技术的滥用。Deepfake发展至今,不仅造假技术在进步,辨别能力也在提高:目前就职于成大统计所的徐志忠先生从2018年开始专门研究该课题,2020年发表了相关研究成果。这篇文章被引用了50多次。“根据这篇论文发表的期刊影响因子(简称IF值),这个引用数比较高,说明Deepfake歧视的问题越来越重要,但研究的人可能没那么多。」
徐志忠坦言,2018年研究Deepfake歧视的时候,Deepfake的片子质量不是特别好。没想到短短两三年,Deepfake的效果好到可以出问题。
双面刃的 Deepfake
Deepfake技术原本是希望通过计算机生成各种栩栩如生的画面或影片,以应对特效制作或老照片修复,而生成栩栩如生的画面或影片有很多种不同的方式。目前Deepfake最常用的方法是2014年提出的“生成对抗网络(GAN)”,通过生成网络和判别网络的对抗,生成逼真的画面或电影,所以说到DeepFake,我们通常说的就是GAN。
“我们会说Deepfake是GAN,因为目前GAN仍然是最好的一代技术,当然新的方法也在研发中,所以未来可能不是以GAN为主体,可能会用其他方法伪造,也可以做得很漂亮。」
徐志忠还表示,Deepfake的开发目标是积极的,技术本身是中性的,但用户如何使用这项技术成为了一个重要的问题。但在用户心态无法保证的情况下,误检技术成为了该技术的最后一道防线。Deepfake识别的主要问题可以分为两个方面:“伪造的特征不固定”,偏向于研究,和“伪钞识别系统的使用情况差异”,偏向于实践。
Deepfake 辨识的研究困难:伪造特徵不固定
现在有图像识别系统,可以识别猫、狗、车牌等物体。这些识别系统相当成熟可靠。直观来说,做一个识别系统来识别Deepfake应该不会太难吧?
但事实上并非如此。在过去,识别系统用来抓住易于辨别的特征。比如猫和狗在形态上有明显的区别。只要给计算机足够多的训练材料,就可以有一套能准确区分猫狗的判别法,可以用在各种需要区分猫狗的场合。
猫和狗在外形上有很大的不同,所以计算机可以很容易地区分这两个物种。图//envato elements先不说辨别真假脸。就人脸识别本身而言,是一个值得研究的问题。每个人的脸看起来都差不多。区别在于面部特征的相对位置、形状或大小的细微差别,导致人脸识别本身很难有通用的规则来区分。但是,不同方法生成的相似Deepfake图像不一定具有相同的伪造特征,从人脸到伪造特征的特征不固定,导致Deepfake图像的识别难度较大。
另外,即使同样的Deepfake图片用同样的方法制作,由于一开始给出的信息不同,伪造的特征也会不同,这就让“一套判别式就能判断是不是Deepfake”成为了一个几乎不可能实现的梦想。
00-1010面对Deepfake识别这个棘手的问题,徐志忠说:“要识别的特征太多了。我们觉得还是搞清楚GAN共识会产生什么线索比较好,可能我们的眼睛看不到,但是计算机是可以通过学习来挖掘的,所以我用这个学习机制来搞清楚这些产生系统是不是大部分都可能有共同的瑕疵。」
一张Deepfake的照片不仅包括脸和五官,还包括背景。徐志忠的论文指出,Deepfake的伪造特征往往出现在背景中,或者出现在背景和人脸的交界处:
“人脸通常合成得很漂亮,但是背景和人脸的边界会不自然。通常头发在哪里,头发就会被烧坏,或者眉毛或者额头的发际线会有明显的差异。另外就是背景,你看不清楚背景是什么。大家忽略这个(背景)很正常,实验结果也确实表明这些部分有相对较好的识别度。」
甘生成的深度假面。图//此人不存在然而,即使这篇论文是最近发表的,徐志忠也不确定这种鉴定方法是否能适用于目前的情况。他表示,GAN生成的Deepfake图像的保真度每半年会有一个显著的突破,并且没有褪色的趋势。
也许,伪造特徵根本不在人脸上!?
实践中,徐志忠认为还有更难的题。
题需要解决,那就是辨伪系统的使用情境差异。以一段 Deepfake 影片上传 Youtube 平台为例,上传的时候 YouTube 就会先对影片进行压缩,这时原有的 Deepfake 伪造特徵很可能会因为压缩而被破坏,许志仲解释:「有些人会故意加上一些杂讯、加一些后处理,比方说整个画面做类似美肌之类的处理,这些都会破坏掉伪造的线索,我们发现这些状况十分常见,而且很难克服。这也是为什么现在几乎没有软体或网站,提供 Deepfake 辨识服务。」
在实验室里,我们可以拿到 GAN 生成的原始影像去做分析,但在网路世界里,每一个影像都可能像上述的情况一样,做了各种后处理才放到网路上,就算现在有研究指出某种辨认方式是有效的,也未必真的能应对网路上的複杂情况。
许志仲表示,目前看到有希望突破压缩这个问题的辨认方式,是去抓人脸在一段影片中的五官变化是否足够自然,这个线索可以克服压缩的一点点问题,因爲是藉由五官相对位置的变化来侦测,这就跟压缩没太大关係。但正如前面提到的,人脸辨识是困难的,人脸的五官定位本身就无法做到精準,真要使用这套方法辨识 Deepfake,还需要更多研究来确认可行性。
也有研究者认为 GAN 理论虽然看似完美无瑕,但在产出 Deepfake 过程中仍可能会出现某些关键操作,只要藉由侦测画面中是否有经历这些操作,就能间接推测这个画面是否为 Deepfake,不过这个做法的缺点也很明显,那就是这些关键操作,也很可能只是正常的影片后製造成的,并造成不是 Deepfake 的影像也被归类到 Deepfake 中。
情境逐个突破,让研究能落地使用
说到这里,许志仲语重心长地说:「我们研究做了这么多侦测 Deepfake 的方法,但都不一定能在真实世界使用,这让我非常意外,而上述的这些情境,也只是冰山一角。」
其实大家都在研究差不多的特徵,像是五官的落差,说话的时候嘴巴的动态变化会比较小或模糊之类的,但这些特徵面在真实的使用情境中,还能有多少辨识度,就真的是未知数。考量到真实情境的複杂度,目前许志仲认为逐个突破不同的情境下它们适合的辨伪方式,才是比较实实际的。
「我们必须先确认好问题是正确的,才能找到正确的答案。」许志仲说,要在实验室里做出一套数据漂亮的辨识系统并不困难,但要做出实际能用的辨识系统却非常不简单。
许志仲也尝试将自己的研究成果运用在实际情境中,但面对製作公司精心製作的 Deepfake 影片,许志仲换了好几套模型,也只有一套能判别出来,也呼应了「使用情境差异」才是辨识 Deepfake 无法落地的最大问题。
各界都在防範 Deepfake 影响生活
GAN 要能生成以假乱真的 Deepfake 图像,必须建构在有训练完善的生成模型上,而一个训练完善的生成模型,并不是随便餵几笔资料给 GAN 就会跑出来的,必须要有足够算力的电脑,配合大量的资料才能完成。除了像 Google 或 Facebook 这种规模的公司有能力製作外,也只有部分研究单位,能做出这种以假乱真的生成模型。
许志仲说:「由于 Deepfake 对社会的影响很大,现在他们都只公开自己的程式码,但不会公开自己的模型,主要就是怕模型被拿去干坏事。」许志仲也坦承,对于辨伪技术的研究来说,目前的状况是非常不利的,这代表研究者必须自己用程式码生出不那么精良的模型,来製作 Deepfake 图片测试。
面对未来 Deepfake 是否会无法辨别,许志仲表示就影像上来说,这件事情是做得到的,总会有方法做出不被任何辨识系统侦测,堪称完美的 Deepfake 影像。但身为防御方的我们,并不是只能靠图片辨识真伪,上传的使用者、社群平台的 meta-data,这些能标示来源的讯息,都可能是我们辨识这部影片是否为 Deepfake 的线索。
面对持续进化,仍看不见消退的 Deepfake 技术,许志仲也希望未来能有更多人一同加入 Deepfake 辨伪的研究行列,针对 Deepfake 辨伪系统的使用情境,我们还有非常多的问题等着被解答。
- 台湾杰出女科学家系列专访,持续更新中!
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/188426.html