超3000个特效镜头，复联4是怎么在这么短时间里完成的？_服务器

期盼已久的《复仇者联盟：终局之战》终于上映了！近300万人在国内午夜零点场熬夜观看。

迄今为止，在界有着如此大的吸引力的，恐怕非漫威莫属了。有人说：「特效始于，高至漫威」。因此，除了精彩的剧情，《复联》系列带来的视觉冲击也是它实力圈粉的原因。

据统计，《复联3》里包含2680个特效镜头，获得第 22 届好莱坞最佳视觉效果奖。而距离3首映仅一年，《复联4》就带着超过 3000个 特效镜头赶来。这背后是 12家特效公司 、上千人团队以及计算机的工作。

今天我们不聊剧情，聊聊特效与它的新武器人工智能的那些事。

很难想象没有特效的复联会是什么效果。而没有强大的技术力量，《复联4》可能也不会这么快与我们见面。要知道，曾经以特效惊艳观众的《阿凡达》每帧画面平均耗费了4万个人工小时。

特效是指影视作品拍摄和制作中，利用数字技术的手段「制作」出难以完成或者有危险的画面。

我们常说的「大场面」就是优秀的视觉特效了。

《复联 3 》全片 2680 个特效镜头， 只有4个镜头没使用特效 。刷新了当时漫威的特效镜头纪录，这些特效制作成本高达 25 亿美元。所以如此打造的视觉盛宴，谁能扛得住。

但特效的制作一般需要花费巨大的心血和财力，所以特效做的不好的话会被戏称「五毛特效」。而随着机器学习的发展，以及 VR， AR 技术的成熟，视觉特效这项工作已经在人工智能的帮助下，开启了新篇章。

参与《复联 4 》制作的 12 家特效公司之一，工业光魔（ILM，Industrial Light and Magic ），凭《星球大战》开创了特效新时代，一举成为特技的「领头羊」。

迄今为止，工业光魔已经为多达 300 部的影片制作特效， 并获得过 15 次奥斯卡最佳视觉效果奖 。《加勒比海盗》、《变形金刚》等特效都是工业光魔参与制作。

在《复联 3 》中，瓦坎达之战是由工业光魔参与制作的，包括灭霸飞船、瓦坎达上的所有战斗、反浩克装甲战斗等片段，共有近 400 位视效艺术家完成了 600 个特效镜头。

如今，工业光魔正致力于使用 人工智能对光线追踪产生的图像进行去噪 。这将减少 CPU 的负担并大幅度地节省时间。

公司负责人还介绍说，「我们还在研究以半自动方式识别和替换人脸的技术，这将会是一次巨大的飞跃。」他所提到的换脸技术，便是类似于前段时间很火的 deepfake 技术。

利用这种技术，工业光魔团队可以将一位演员的样子映射到表演者脸上，并且制作效率大大提高。

工业光魔 CTO Rob Bredow 在一次演讲中表示，在中用一个 deepfake 算法的话，实现的效果质量还不够高。但是他们已经确定了什么是限制所在。不久后，他们会将类似 deepfake 但是质量更高的技术用在中。

在《复联 3 》里，灭了一半宇宙的「大紫薯」灭霸，就是著名的特效公司数字王国（ Digital Domain ）利用了机器学习等技术打造而来。

曾有媒体报道，灭霸的外部形象为这个人物注入了灵魂。有没有一种感觉，看到灭霸的样子，就能感受到他是个狠人。

数字王国使用 Masquerade 定制机器学习软件，通过两个垂直方向的高清摄像头捕获面部数据，细致追踪面部的 100 到 150 个跟踪点。

之后，通过计算机视觉的技术，训练和调试机器学习模型，自动将得到的脸部渲染映射到灭霸这个角色上，最终得到自然的面部视觉效果。

通过他们的努力，我们看到了这个偏执，凶狠，硬气，而又带点柔情的大反派。如果没有这些技术，也许灭霸的形象就不会这么丰满，也不是那个为了看日落而实行「人口控制」的狠角了。

借助于 AI 技术，视觉特效将不再需要大量斥资，就能得到更好的视觉体验。

同时利用到云计算，高性能的 GPU 等硬件，以往需要两个小时渲染的帧，可能只需要两秒钟就能完成。

得益于这些技术，行业内的设计师、艺术家能够节约更多时间去创作更多有趣的东西。

如此一来，只要你有一个较小的工作室，甚至是独立的艺术家，利用技术就能获得蜘蛛侠或者 X 战警中看到的效果。

现在机器学习已经被用于在基于物理的动画和媒体艺术中，创造出有趣的效果，但是随着计算变得更加高效和新颖的方法，如深度强化学习技术，将会创建出更具可扩展性的模型。

如果这项技术成为主流，工作室和独立的视觉特效成本将会大大降低，对于热爱的人士，无异于又一个福音。

相比于《复联 3 》最终收获了奥斯卡最佳视觉的多项提名，《复联 4 》不知道又会带来什么样的视觉盛宴。

根据已经公布的 12 家参与制作特效公司名单阵容，加之整部中超过 3000 个特效镜头。可想而知，《复联 4 》绝对是顶级的制作水准。

而且漫威对自己这个系列的收官之作，想必也是不会掉以轻心，毕竟那么优秀的前作 3 ，似乎都是在收着，为了 4 做铺垫。

所以雷神会不会用毁天灭地的大锤爆发雷霆之力，火箭浣熊怎么继承格鲁特成为搞笑担当，以及灭霸和联盟之间的战争能够壮观到什么程度，也许只有亲自去影院，为信仰充值一下，才能知晓结果了。

祝愿每一个要去看的小可爱，都没有在观影前被强行剧透，然后在影院里看得尽兴！

本文授权转载自微信公众号：超神经HyperAI

作者|小葳
2月底，各种版本的《蚂蚁呀嘿》在抖音刷屏。有网友说，“一打开抖音，好像捅了蚂蚁窝。”
通过一款名为Avatarify 的APP，用户只需上传一张照片，即可让照片主人做出各种想要的表情。截止发稿，《蚂蚁呀嘿》在抖音有超过25万个视频，相关话题视频播放量达到30亿次。Avatarify曾在2 月 25 日问鼎国内App Store 应用免费榜榜首，随后连续数天稳居总榜第一名。
相比ZAO火爆之后的3天后下架，Avatarify也逃不出换脸软件的宿命，只有7天便在APP Store中国市场下架（目前国外还可以使用）。
Avatarify 由一个俄罗斯程序员开发，并放在GitHub上，最初是给Zoom、Skype等视频会议“解闷”用的，比如可以在开视频会议时把自己的脸换成马斯克的脸，并实时互动。迄今为止这个项目已在 GitHub 上获得了近 12 万的 star 量。
几个月后，Avatarify又推出了APP版（只有iOS版）。原理上，Avatarify借助 deepfake 等技术，在想要交换的脸部图像上对算法进行训练。通过在目标图像的相似类别上训练算法，该模型支持实时换脸 *** 作。
类似换脸软件屡次被下架的背后还是隐私和信息安全问题。很多人都会担心自己的人脸信息被泄露或滥用，然而我们却不必对其背后的AI技术——深度合成一棒子打死。而且，目前深度合成在很多行业已经有了不少更有价值的应用。
深度合成首次被公众关注是2017年11月，彼时美国新闻网站Reddit一个名为“deepfakes”的用户上传了一段合成后的色情视频，将色情影片中演员的脸换成某明星的脸。此后，媒体开始用deepfake描述这种基于AI的视频合成内容。不过因此也让不少人误认为，深度合成就是deepfake、换脸，实在是太冤了。
首先，deepfake是深度合成的子集。只不过，换脸是最早进入公众视野，也是最为大众熟知的一种深度合成应用。
深度合成（Deep Synthesis）的内涵非常广泛，包括借助人工智能算法实现语音、图像、音频、视频、人脸等内容的合成与自动生成。其典型应用包括：人脸替换（换脸）、人脸再现（ *** 纵目标对象的面部表情，比如让他们说从未说过的话）、人脸合成（AI生产媲美真实的人脸图像，事实上这张人脸并不存在）、语音合成、全身合成等等。
其次，deepfake频频导致的隐私安全和色情场景滥用问题，会让人们对深度合成技术存在偏见和误解，甚至认为AI伪造内容会冲击社会信任等等。不过，随着深度合成技术在更多领域的落地应用，公众对深度合成技术的认识也愈加成熟。
深度合成背后的AI技术主要包括两块：自编码器（autoencoders）和生成对抗网络（GAN, Generative Adversarial Networks ）。GAN由两组相互对抗的人工神经网络组成，一个是生成器，一个是鉴别器，在无数次对抗中，生成器最终做到让鉴别器不再能够区分真实数据和合成数据，从而生成高度逼真的内容。
业界最先进的图像生成器当属英伟达的StyleGAN，已于2019年2月在Github上开源。
腾讯研究院、腾讯优图实验室发布的《AI生成内容发展报告2020——“深度合成”商业化元年》（以下简称报告）显示，近几年深度合成技术演进加快，并展现出几个技术趋势：
一、在单一的音频、图像合成之外，深度合成技术正向综合性的方向发展。

二、面部而成之后，全身合成将成为新热点。

三、2D合成之外，3D合成技术（尤其是虚拟数字人）将是下一阶段的重点。
而且，随着“深度合成”技术日趋成熟，其已经在多个领域实现落地应用，包括影视、娱乐、教育、医疗、电商、广告营销等领域。
在媒体行业，AI主播日益火热。2018年，搜狗联合新华社推出全球首个AI合成主播后，2020年，双方又推出全球首个3D AI合成主播。3D AI合成主播基于超写实3D数字人建模、多模态识别及生成、实时面部动作生成及驱动、迁移学习等多项人工智能前沿技术，使机器可以基于输入文本生成逼真度极高的3D数字人视频内容，呈现和真人一样的视频播报。
此外，包括百度、京东、网易在内的互联网巨头先后推出虚拟数字人。百度智能云推出的虚拟数字人，成为国内首个上岗的银行“虚拟员工”。
在自动驾驶领域，深度合成被用于开发自动驾驶仿真系统（AADS），创造虚拟道路环境为自动驾驶系统提供训练和测试。
在医疗领域，通过生成与真实医学影像无异的医学图像训练AI系统，可以解决医疗数据不足、病患隐私保护等问题。在NVIDIA与合作伙伴联合发表的论文中，展示了利用GAN算法合成带有肿瘤的脑部核磁共振图像的方法。在算法训练生成过程中，仅需投入10%的真实数据，AI诊断系统就可以检测出真实影像中的肿瘤。
在广告营销领域，AI合成的人脸和虚拟形象可以替代真人模特参与营销活动，而不会有人像版权问题。比如，Generated Photos 就是一个用AI自动生成人脸的网站，它的资料库中有超过 10 万张AI生成的人脸，对外提供免费下载使用，而且没有版权问题。这些免费人脸可以用在非常多的场景，比如广告传单、网站、PPT 简报、问卷、用户头像等等。
深度合成被滥用是人工智能治理的一个重要课题。
色情行业是新技术采用和普及的先锋，AI技术也不例外。目前，色情产业是深度合成技术滥用的重灾区。根据报告，2019年12月，全网共有14678个深度合成视频，其中96%属于色情性的深度合成视频，主要存在于色情网站。
如何防止人们用深度合成技术作恶？多元治理是比较公认的思路，包括法律方案、技术方案、行业自律和公众教育等各个方面。
法律方面，一些发达国家已经出台相关法案。但值得注意的是，并没有“一刀切”禁止使用深度合成技术，而是禁止利用深度合成技术从事色情视频合成、虚假新闻、干扰选举等非法行为。比如美国国会《DeepFakes责任法案》等相关法案，只禁止政治干扰、色情报复、冒充身份等目的的深度合成，并要求制作者对深度合成内容添加水印等标记。
技术方面，鉴别技术和溯源技术是两种主流的方法。但是在鉴别方面，没有通用的视频鉴别方案，需要针对每一种新兴的合成技术训练针对性的鉴别网络。
虽然目前深度合成内容的门槛已大幅降低，普通人也可以在智能手机等智能终端能上完成娱乐性的深度合成内容，但这类内容往往较容易识别。高质量、高仿真的深度合成内容仍需要专业工具和技能。所以，我们需要防范风险但无需恐慌。
AI就像人类的一个非常聪明的学生，TA只是飞快又忠实地学会人类教的东西。
正如报告中所说，“深度合成并非是关于‘伪造’和‘欺骗’的技术，而是极富创造力和突破性的技术。虽然它和其他技术一样，也催生了一系列必须面对的难题，但这并不会磨灭这一技术给社会带来的进步。”

ITDaily & AI 中国

每日最新 IT 圈 AI 圈新鲜事吐槽给你想看的
想象一下，在选举前几天，一个候选人的视频被发布，显示他们使用仇恨言论，种族污蔑，以及削弱他们作为亲少数族裔的形象。想象一下，一个十几岁的孩子看着一段令人尴尬的露骨视频在社交媒体上传播。想象一下，一个CEO在筹集资金的路上，当一段陈述她对产品的恐惧和焦虑的音频片段被发送给投资人时，毁掉了她成功的机会。

以上所有的场景都是假的、编造的，并不是真实的，但可以通过人工智能生成的合成媒体，也就是所谓的DeepFake[1]，使之成为现实。同样的技术，可以让一位因卢伽雷氏病而失声的母亲用合成语音与家人对话，也可以用来生成政治候选人的假演讲，以损害其名誉。同样的技术，可以让老师使用合成视频与学生进行有效的互动，也可以用来制作一个青少年的假视频来损害其声誉。

人工智能(AI)和云计算技术、GPU虚拟机和平台服务的进步，使得音频、视频和图像处理技术的复杂性得到了快速发展。商品化云计算的接入、公共研究的人工智能算法，以及丰富的数据和多样化海量媒体的可用性，为合成媒体的创作民主化创造了一场完美的风暴。这种人工智能生成的合成媒体被称为深层假造。通过社交平台，合成媒体的传播实现了规模化的民主化。

GAN技术的创新和研究，加上计算的日益普及，使得合成数据的质量以惊人的速度提高。新的工具，其中许多是公开的，可以以越来越可信的方式 *** 纵媒体，例如创建一个公众人物的声音副本或将一个人的脸叠加到另一个人的身体上。GAN和deepfakes已经从研究和学术课题发展到企业创新、娱乐和参与社会活动的实际应用。

Cheapfake是通过简单的常规编辑技术，如加速、减速、剪切等，以及非技术性的 *** 作，如重新编排或重构现有媒体。廉价伪造的一个例子是 "醉酒的佩洛西 "视频[2]。最近，我们看到一些政治广告中使用了重新着色和修饰的手法，这也是一种廉价的假货[3]。
Deepfakes已经成为换脸和对口型的代名词。还有很多其他类型的基于人工智能的音频、视频和图像的 *** 作都可以被称为Deepfakes。

换脸是指一个人的脸被另一个人的脸或另一张脸的关键特征所取代或重构。脸部交换或用滤镜进行 *** 作，几乎是所有社交媒体、视频聊天应用的常见功能。从2014年开始，社交媒体应用Snapchat就有了增强人脸的滤镜。利用人脸检测镜头技术，你可以让自己变老，添加美颜滤镜，或者给自己装上猫耳朵和胡须。这些应用和技术的输出将被定性为AI-Generated合成媒体或deepfakes。大量的免费和付费应用和在线工具让两个人的换脸变得超级简单。开发者可以使用GitHub上的Faceswap和DeepFaceLab的开源代码来创建非常复杂的deepfakes，并在定制代码和训练AI模型方面做出一些努力。

*** 控术是用人工智能渲染 *** 纵的全身动作和行为。它是一种在视频中创建目标脸部和身体的3D模型来作为木偶人的行为和说的技术。它也被称为全身深度假动作。2018年8月，加州大学伯克利分校发表了一篇名为《Everybody Dance Now》的论文[4]。这是研究人工智能如何将专业舞者的动作转移到业余爱好者的身上。日本人工智能公司Data Grid创造了一个AI引擎，可以自动生成广告和时尚的虚拟模型。

唇语同步是一种渲染嘴部动作和面部表情的技术，让目标人物用声音和正确的语气和音调说事情。AI算法可以将一个人说话的现有视频，改变视频中的唇部动作，以匹配新的音频。这些音频可能是断章取义的旧讲话，也可能是模仿者说话或合成的讲话。演员和导演乔丹-皮尔就用这种技术制作了奥巴马的病毒视频。
Voice Coning是一种深度学习的算法，它可以接收个人的语音记录，生成与原声过分相似的合成语音。它是一种创建个人的自定义语音字库，然后用字库来生成语音的技术。开发合成语音的应用和云服务有很多，微软定制语音、Lyrebird AI、iSpeech和VOCALiD，个人和企业都可以使用这样的技术来提高自己的机构。

图像生成或图像合成是一种利用计算机视觉技术、深度学习和生成式对抗网络（GANs）来合成新图像的技术。它可以生成计算机生成的人或任何非真实物体的图像。英伟达的一个团队用从Flickr上提取的人脸训练了一台计算机，创建了网站ThisPersonDoesnotExistcom。在网站ThisXDoesnotExistcom上还有其他例子。

文本生成是利用人工智能技术进行文本和深度学习，自动生成文本，写故事、散文和诗歌，创建长文档的摘要，以及综合的方法。使用RNN（循环神经网络）和现在的GANs，文本生成有很多实际的使用案例。文本生成可以帮助行业中新的自动化新闻或机器人新闻工作。OpenAI的GPT-3可以生成任何文本，包括吉他标签或计算机代码。

技术能够增强人们的能力，是一个很好的推动力。技术可以让人们有话语权，有目标，有能力大规模、快速地产生影响。由于数据科学和人工智能的进步，出现了新的赋能理念和能力。人工智能合成媒体有很多积极的应用案例。技术可以为所有人创造可能性和机会，不管他们是谁，也不管他们如何听、如何说、如何沟通。深假技术的进步在某些领域有明显的好处，比如无障碍、教育、**制作、刑事取证和艺术表达。[我将在以后的文章中探讨积极的使用案例]。

与任何新技术一样，邪恶的行为者会利用这种创新并为他们的利益服务。GAN和Deepfakes已经不仅仅是研究课题或工程玩具。从一个创新的研究概念开始，现在它们可以作为一种通信武器使用。Deepfakes正变得容易创造，甚至更容易在政策和立法真空中传播。

Deepfakes使编造媒体--换脸、对口型和木偶人--成为可能，大多数情况下，无需同意，并给心理安全、政治稳定和商业干扰带来威胁。深度造假可以用来损害名誉、捏造证据、欺骗公众、破坏对民主体制的信任。近两年，利用生成式人工智能模型创建的合成数据被恶意使用的可能性开始引起人们的警惕。该技术现在已经发展到可能被武器化，对个人、社会、机构和民主制度进行破坏和伤害。Deepfakes可以促进事实相对主义，并使专制***得以发展。Deepfakes不仅会造成伤害，还将进一步侵蚀人们对媒体已经下降的信任。它还可以帮助公众人物将自己的不道德行为隐藏在Deepfakes和假新闻的面纱中，将他们的实际危害行为称为虚假行为，也就是所谓的骗子红利。

非国家行为者，如叛乱组织和恐怖组织，可以利用Deepfakes来代表他们的对手发表煽动性言论或从事挑衅性行动，以煽动人们的反国家情绪。例如，一个恐怖组织可以很容易地制作一个假视频，显示士兵对宗教场所的不敬，以点燃现有的反国家情绪，造成进一步的不和谐。国家可以使用类似的策略来传播针对少数族裔社区或另一个国家的计算宣传，例如，一个假视频显示一个警察高喊反宗教的污言秽语，或者一个政治活动家呼吁暴力。所有这些都可以用较少的资源、互联网规模和速度来实现，甚至可以通过微目标来激发支持。

[我将在今后的文章中探讨深层伪装的负面使用案例和危害]

为了捍卫真相和保障言论自由，我们需要采取多利益攸关方和多模式的方法。任何减轻恶意深层造假的社会负面影响的对策，其主要目标必须是双重的。其一，减少恶意深层造假的风险，其二，将其可能造成的损失降到最低。

恶意深造的有效对策可分为立法行动与法规、平台政策与治理、技术干预和媒介素养四大类。

笔者将在以后的文章中探讨有效的对策。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zz/12688088.html

超3000个特效镜头，复联4是怎么在这么短时间里完成的？

发表评论

评论列表（0条）