大色哥导航 《当代电影时刻》|周凡颖等:基于畅通细节翔实力的作风化脚色动画生成系统|动作|视觉
发布日期:2024-09-26 06:57 点击次数:153
大色哥导航
本文刊发于《当代电影时刻》2024年第8期
内行点评
脚色动画可赋予电影诬捏脚色生动的阐扬力和私有的视觉作风。在传统脚色动画制作中,动画师需要欺诈动作捕捉时刻结抓动调整来盘算脚色每帧动作,不仅耗时浩瀚、遵循低下,且很难保证动作作风的一致性。跟着东说念主工智能深度学习时刻的发展与应用,研究东说念主员开动探索怎么欺诈深度神经蚁集自动生成和优化脚色动画,扶植制作遵循和呈现后果的教训。其中,基于畅通细节翔实力的作风化脚色动画时刻是一种结算筹商机视觉(CV)、深度学习和动画艺术的前沿步调,该步调可协助动画师生成具有私有作风的脚色动画。《基于畅通细节翔实力的作风化脚色动画生成系统》一文针对脚色动画的自动作风化生成,冷落了一种基于畅通细节翔实力(MD⁃ATN)模块的翻新作风化畅通生成系统,该系统在整合畅通浅层特征和深层特征的同期,端庄接洽了动作细节特征的赔本特质,完结了作风化脚色动画的高质地生成。跟着深度学习时刻发展和模子筹商遵循提高,脚色动画作风化时刻必将在多作风和会、及时作风化和作风化定制等多个地方完结更多苟且。不错意象,将来作风化脚色动画时刻将在影视、游戏和诬捏执行(VR)等限制得到愈加平方和潜入的应用,进而鼓舞影视动画艺术与当代智能科技的深度和会。
——周令非
中国电影科学时刻研究所
(中央宣传部电影时刻质地检测所)
高档工程师
作 者 简 介
周凡颖
上海大学上海电影学院2021级硕士研究生,主要研究地方:畅通作风移动、筹商活泼画。
上海大学上海好意思术学院2020级大学本科,主要研究地方:3D场景和会、图像好意思学料到。
范艺严
翟承硕
上海大学上海电影学院2022级硕士研究生,主要研究地方:数字东说念主。
上海大学上海电影学院素养,上海电影殊效工程时刻研究中心副主任,主要研究地方:数字影视时刻、筹商机图形学。
丁友东
摘抄
畅通捕捉时刻在电影产业中的应用极大教训了脚色动作的传神度,而畅通作风迁旋即刻则进一步拓展了这一限制的可能性。畅通作风移动好像将特定神态、年纪、景色等作风特征移动至现存的畅通捕捉骨子中。本文冷落一种翻新的基于畅通细节翔实力(MD⁃ATN)模块的作风化畅通生成系统,旨在为动画电影的脚色畅通作风移动提供一种高效、直不雅的措置决策。MD⁃ATN模块整合了畅通的浅层和深层特征,加多了动作细节,从而生成阐扬力丰富的作风化畅通。实验已矣标明,该系统在保持畅通骨子一致性的同期,移动了指定的畅通作风,为动画电影的脚色动画制作提供了新的时刻妙技和创意空间,教训了创作遵循。
瑕疵词
筹商活泼画;脚色动画;畅通合成;畅通作风移动;生成模子
1序文
在动画电影制作限制,脚色动作和阐扬是叙事和神态传达的中枢。 畅通捕捉时刻的应用极地面丰富了动画脚色的饰演细节,提高了制作遵循。 可是,跟着不雅众对个性化和千般化动画体验需求的日益增长,传统的畅通捕捉时刻靠近着新的挑战。 为了创造出更具个性化和艺术性的脚色动作,动画电影产业艰巨需要一种好像灵活调治和和会不同畅通作风的时刻。 畅通作风迁旋即刻兴隆了这一需求,能将脚色神态、景色等畅通作风移动至特定的畅通捕捉骨子上 [1] 。 该时刻不仅能保留原始动作细节,还能赋予脚色全新的阐扬形势,为动画电影的脚色盘算和饰演创作提供更繁密的创意空间,同期也为电影制作带来遵循和本钱上的上风。
可是,现存畅通作风移动步调在保留畅通特征细节方面仍存在一定局限性。开端,在畅通作风的特征空间中,频频使用全局步调筹商特征均值和方差,这导致局部细节在很猛进程上被忽略。第二,尽管一些步调[2]使用翔实力机制来拿获局部作风特征,但该作风特征频频源于更深档次的特征,导致低档次细节特征被忽略。第三,现存步调仅仅浅易将再行加权的作风特征和会到骨子特征中,未能很好地接洽特征分别。以上原因导致现存步调生成的畅通枯竭细节,不适用于电影制作限制。
针对上述问题,本文冷落了一个新的作风化脚色动画生成系统。该系统包含一个具有细节感知翔实的新模块,称为畅通细节翔实力(Motion Details Attention, MD⁃ATN)模块。同期,本文盘算了一种新的基于MD⁃ATN模块的动作细节特征赔本优化想法。如图1所示,MD⁃ATN模块使用翔实力机制和归一化处理畅通的全局和局部特征,从作风和骨子的浅层和深层特征得回镶嵌特征,因此蚁集好像愈加精确地终端和调整脚色动作的作风特征。这种对细节的关怀使得生成的作风化畅通愈加丰富和传神,更好地稳当了动画电影制作对高质地动态阐扬的条款。通过在Xia数据集[3]和Bandai⁃Namco⁃Research⁃ Motion数据集[4]进行实验考证,本文步调在识别精度和弗雷歇畅通距离(Fréchet Motion Distance, FMD)评分上均取得较好阐扬,阐述了其在动画电影脚色作风移动任务中的先进性和有用性。
图1 MD⁃ATN模块暴露图
2联系研究
2.1 图像作风移动
跟着深度学习的发展,Gatys等[5]冷落一种基于卷积神经蚁集(CNN)的高效参数化纹理建模步调。之后,Ulyanov等[6]冷落实例归一化(IN),其通过老到后的蚁集将放浪骨子图像的作风修改为单个指定的想法作风。Huang等[7]延迟了Ulyanov的想法,通过自稳当实例归一化(AdaIN)将不同的作风统计信息注入归拢汇注集。AdaIN调整骨子输入的均值和方差以匹配作风输入的均值和方差,并通过传递特征统计信息有用地将骨子和作风联结起来,最终身成作风化图像。Park等[8]冷落的SANet接洽了局部作风,其从作风和骨子特征图入网算翔实力分数并调整作风特征,将翔实力输出整合至骨子特征中。Liu等[9]受AdaIN和SANet的启发,冷落了自稳当翔实力归一化(AdaAttN)模块,该模块接洽了具有翔实力机制的浅层和深层特征,并基于每个点自稳当地传递特征分别,因此可更好地为图像生成高质地的作风化已矣。受AdaAttN念念想启发,本文在畅通作风移动中盘算了MD⁃ATN模块以获取畅通作风的全局和局部特征。
2.2 畅通作风移动
基于深度学习的步调大大提高了作风化畅通的质地和生成速率。基于Gram矩阵[5],Holden等[10]在潜在空间中裁剪畅通,完结了畅通作风的移动。Dong等[11]冷落一个基于CycleGAN的新框架,用于将成年东说念主的动作捕捉数据调治为儿童作风的动作。Aberman等[12]冷落的框架从带有作风标签的不成对畅通数据辘集学习。Park等[13]构建时空图模拟畅通片断,让蚁集学习要道之间的空间关系。Tao等[14]冷落一种及时作风化畅通的生成步调,通过编码器-递归-解码器结构和一种联结特征翔实和时代翔实的新判别器完成了作风化畅通的生成。Jang等[2]聚焦于东说念主体局部的畅通作风移动,允许对脚色的某些身体部位进行作风裁剪。最近,Findlay等[15]和Chang等[16]使用去噪扩散概率模子(DDPM)以合成作风化的东说念主体畅通。
在上述使用归一化模块的步调[2,12,13]中,AdaIN仅接洽全局作风分别,操作骨子特征使其特征分别与作风特征一致。而Jang等[2]冷落的BP⁃Net模块固然在局部作风化中施展了作用,但其未能探索浅层特征且未接洽局部特征统计。相较而言,本文步调关怀输入畅通的浅层和深层特征,通过MD⁃ATN模块索求作风特征,在作风移动和骨子保存间取得了更好的均衡,能生成更具细节的作风化畅通,更符合应用于动画电影制作限制。
3本文步调
3.1 蚁集综合
图2 本文蚁集结构图
大色哥导航
3.2 畅通细节翔实力(MD⁃ATN)
图3 MD⁃ATN模块框架图
3.3 动作细节特征赔本
3.4 老到项
4实验与已矣
4.1 评估有计划
本文使用弗雷歇畅通距离(FMD)以及骨子和作风的识别准确度定量评估蚁集质地。FMD测量畅通特征向量间距离,FMD越低代表生成的畅通质地和千般性越高。此外,本文老到了一个动作骨子和作风的识别蚁集,通过该蚁集可得畅通的骨子识别准确率(Content Recognition Accuracy, CRA)和作风识别准确率(Style Recognition Accuracy, SRA),文中的准确率代表骨子识别准确率与作风识别准确率的平均值,其用于掂量作风移动的质地和骨子一致性,值越高代表识别准确率越高。
4.2 定量比较
本文步调与Jang等[2]、Aberman等[12]和Park等[13]的步调比较后的定量已矣如表1所示,已矣走漏本文步调取得了较好阐扬的FMD,即由本文步调生成的作风化畅通具有较高质地。值得一提的是,Jang等[2]的步调取得最佳FMD的原因在于该步调更关怀生成畅通的千般性,能生成千般组合的作风化畅通,可是此步调会过度移动提供作风的畅通中的骨子特征,导致生成不当然的畅通,此风物将在定性比较已矣中展示。此外,本文步调取得了最高的准确率,这标明本文步调可很好地保持畅通的骨子特征和作风特征,这有助于减少在电影制作中对生成的畅通进行裁剪的时代本钱。
表1 本文步调与Jang等[2]、Aberman等[12]和Park等[13]的定量对比已矣
4.3 定性比较
本文步调与Jang等[2]和Park等[13]的步调定性比较已矣如图4所示。为了使已矣更直不雅,本文对BVH骨架进行了蒙皮处理,这么不仅展示了骨架的动态变化,还更好地呈现了作风移动在动画脚色上的应用。图4中红框标记出了与本文已矣比拟,其他步调在骨子特征保留和作风特征保留方面的不及之处。尽管Park等[13]的步调在作风移动方面取得了一定班师,但在保留作风局部特征方面存在局限,且未必无法督察骨子一致性;固然Jang等[2]等的步调在一定进程上保留了作风的局部特征,却倾向于过度移动作风畅通中的骨子特征,这可能归因于其BP⁃Net模块未能充分捕捉浅层特征。经过对比,本文步调保留了最多的局部特征,并在骨子特征和作风特征间取得了精好意思均衡,能产生愈加融合且视觉后果更好的已矣。
图4 本文步调与Jang等[2]和Park等[13]的定性对比已矣
4.4 消融实验
本文通过消融实验考证了MD⁃ATN模块与动作细节特征赔本项对蚁集的作用,已矣如表2所示。其中,FMD数值越低,生成的畅通质地越高;CRA数值越高,生成的畅通具有更好的骨子一致性;SRA的数值越高,生成的畅通具有更好的作风一致性。
表2 消融实验已矣
(1)MD⁃ATN的作用。AdaIN[7]可索求作风的全局特征,而SANet[8]更关怀作风的局部特征。因此,本文用AdaIN和AdaIN与SANet模块相联结的方式替换MD⁃ATN模块,以考证其在本文汇注集的后果。已矣标明,AdaIN在作风移动方面十分有用,但它忽略了作风的局部特征。此外,具有AdaIN与SANet模块的蚁集取得了较差的FMD、CRA和SRA,这阐述弗成通过浅易联结的方式同期获取全局特征与局部特征,而需通过一个长入模块达到该目的。比拟之下,袭取MD⁃ATN模块的蚁集生成的畅通取得了更好的FMD、CRA和SRA,这标明在畅通作风移动中,获取蚁集的浅层和深层信息以及接洽作风的全局特征和局部特征是有用的。
(2)动作细节特征赔本Lmdf的作用。本文通过从赔本项中移除Lmdf来分析其对作风化畅通已矣的影响。已矣走漏,莫得动作细节特征赔本的蚁集得回了更差的FMD,这标明莫得Lmdf的蚁集无法更好地学习从作风编码器E和MD⁃ATN模块中索求的作风特征,Lmdf项关于生成更竟然且具有细节的畅通十分宏大。
4.5 作风插值
本文通过作风插值阐述模子的泛化身手。图5(a)展示了走路骨子中使用不同权重的大摇大摆作风的移动已矣;图5(b)展示了关于同样畅通骨子,在烦恼和童真两种作风间插值的移动已矣。由图5可知,作风插值使得作风化畅通的生成愈加可控,可匡助电影制作家或动画师字据需求调整所需作风的权重,提高电影制作的遵循。该过程在本文盘算的作风化动画生成系统中尤为宏大。
图5 作风插值移动已矣
5作风化脚色动画生成系统研发
5.1 系统建筑环境
本系统使用Python算作主要编程谈话,欺诈其丰富的库以完结快速建筑;系统后端使用了第3章冷落的基于畅通细节翔实力的作风化畅通移动框架;前端界面则通过PyQt5完结,确保了跨平台的兼容性和用户交互的知晓性;系统部署于英伟达(NVIDIA)GeForce RTX 3090 GPU(24GB)上。
5.2 作风化脚色动画生成系统经过
本文系统旨在为动画师使命任务提供便利,其经过图如图6所示。作风化动画生成系统的使命经过是用户友好且直不雅的。在操作经过中,用户可选拔想法畅通和算作参考的作风畅通,并通过滑动条调整作风化进程,从而精确终端作风移动后果。系统提供预览功能,使用户好像即时检讨合成已矣,并在欢畅后导出所需的BVH口头动画片断。这依然过不仅教训了使命遵循,也使得创作过程愈加直不雅。
图6 作风化脚色动画生成系统经过图
5.3 作风化脚色动画生成系统盘算
系统袭取第3章盘算的蚁集,集成MD⁃ATN模块和作风化特征赔本优化算法,确保了作风移动的质地和动画的细节阐扬。系统分为单一作风移动和多作风移动两个主邀功能模块,以稳当不同应用场景和用户需求。其中,单一作风移动模块专注于将一种特定作风应用到畅通骨子上,适用于需要特定作风化后果的场景;多作风移动模块允许用户搀杂多种作风特征,创造出私有的、复合的作风化动画,符合探索翻新的动画后果。系统的两个模块界面如图7所示,它们皆为用户提供了如下步调:(1)上传畅通骨子数据:用户通过界面上传BVH口头的畅通捕捉数据,算作动画生成的骨子基础;(2)上传作风畅通数据:用户上传界说作风特征的BVH口头畅通数据,用于沟通作风移动过程;(3)调整作风化进程:系统提供滑动条,允许用户调整作风移动的进程,从而在保留原始动作特征的同期,终端作风特征的显贵性;(4)生成预览:用户点击“生成已矣”按钮后,系统将及时渲染作风化动画,并在界面上提供预览;(5)导出数据:如若用户对预览已矣欢畅,不错点击“导出数据”按钮,将作风化后的动画保存为BVH文献,以便后续的裁剪或使用。
图7 作风化脚色动画生成系统界面
6 结语
本文冷落了一种新的畅通作风移动模块MD⁃ATN,通过调整作风特征的加权均值和方差来调治特征统计量,可更好地索求畅通作风的全局和局部特征,并将其应用于输出畅通。实验已矣标明,该步调好像生成高质地的作风化畅通已矣,保证了一致的全局作风和精好意思的局部细节,使输出已矣更具阐扬力。本文建筑了一个无缺的作风化动画生成系统,为动画电影制作提供了一个高效、直不雅的使命经过,有助于裁汰动画电影制作本钱。跟着东说念主工智能时刻的连接最初,畅通作风迁旋即刻将更平方地应用于电影制作,进一步扶植行业从业者拓展创意鸿沟,创造出愈加生动的CGI脚色,鼓摆动画艺术的发展。
凝视、参考文献
(向下滑动阅读)
[1] Tilmanne J, Moinet A, Dutoit T. Stylistic gait synthesis based on hidden Markov models[J/OL].(2012⁃03⁃26)[2024⁃08⁃12].https://asp-eurasipjournals.springeropen.com/articles/10.1186/1687-6180-2012-72#citeas.
[2] Jang D K, Park S, Lee S H. Motion puzzle: Arbitrary motion style transfer by body part[J]. ACM Transactions on Graphics (TOG), 2022, 41(3):1⁃16.
[3] Xia S, Wang C, Chai J, et al. Realtime style transfer for unlabeled heterogeneous human motion[J]. ACM Transactions on Graphics (TOG), 2015, 34(4):1⁃10.
[4] Kobayashi M, Liao C C, Inoue K, et al. Motion Capture Dataset for Practical Use of AI⁃based Motion Editing and Stylization[EB/OL]. (2023⁃07⁃09)[2024⁃07⁃11]. https://arxiv.org/abs/2306.08861.
[5] Gatys L A, Ecker A S, Bethge M. Image style transfer using convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 2414⁃2423.
[6] Ulyanov D, Vedaldi A, Lempitsky V. Instance normalization: The missing ingredient for fast stylization[EB/OL]. (2017⁃11⁃06)[2024⁃07⁃11]. https://arxiv.org/abs/1607.08022.
[7] Huang X, Liu M Y, Belongie S, et al. Multimodal unsupervised image⁃to⁃image translation[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 172⁃189.
[8] Park D Y, Lee K H. Arbitrary style transfer with style⁃attentional networks[C]//proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 5880⁃5888.
[9] Liu S, Lin T, He D, et al. Adaattn: Revisit attention mechanism in arbitrary neural style transfer[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 6649⁃6658.
[10] Holden D, Saito J, Komura T. A deep learning framework for character motion synthesis and editing[J]. ACM Transactions on Graphics (TOG), 2016, 35(4):1⁃11.
[11] Dong Y, Aristidou A, Shamir A, et al. Adult2child: Motion style transfer using cyclegans[C]//Proceedings of the 13th ACM SIGGRAPH Conference on Motion, Interaction and Games, 2020: 1⁃11.
[12] Aberman K, Weng Y, Lischinski D, et al. Unpaired motion style transfer from video to animation[J]. ACM Transactions on Graphics (TOG), 2020, 39(4):64⁃1.
[13] Park S, Jang D K, Lee S H. Diverse motion stylization for multiple style domains via spatial⁃temporal graph⁃based generative model[J]. Proceedings of the ACM on Computer Graphics and Interactive Techniques, 2021, 4(3): 1⁃17.
[14] Tao T, Zhan X, Chen Z, et al. Style⁃ERD: Responsive and coherent online motion style transfer[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 6593⁃6603.
[15] Findlay E J C, Zhang H, Chang Z, et al. Denoising Diffusion Probabilistic Models for Styled Walking Synthesi[EB/OL]. (2022⁃09⁃29)[2024⁃07⁃11]. https://arxiv.org/abs/2209.14828.
[16] Chang Z, Findlay E J C, Zhang H, et al. Unifying human motion synthesis and style transfer with denoising diffusion probabilistic models[EB/OL]. (2022⁃12⁃16)[2024⁃07⁃11]. https://arxiv.org/abs/2212.08526.
[17] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Proceedings of Advances in Neural Information Processing Systems (NIPS), 2014: 2672⁃2680.
[18] Yan S, Xiong Y, Lin D. Spatial temporal graph convolutional networks for skeleton⁃based action recognition[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2018, 32(1).
撸撸撸快播[19] Zhu J Y, Park T, Isola P, et al. Unpaired image⁃to⁃image translation using cycle⁃consistent adversarial networks[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2223⁃2232.
[20] Yang D, Hong S, Jang Y, et al. Diversity⁃sensitive conditional generative adversarial networks[EB/OL]. (2019⁃01⁃25)[2024⁃07⁃11]. https://arxiv.org/abs/1901.09024.
控制单元:国度电影局
主持单元:电影时刻质地检测所
圭臬外洋刊号:ISSN 1673-3215
国内长入刊号:CN 11-5336/TB
投稿系统:ampt.crifst.ac.cn
官方网站:www.crifst.ac.cn
期刊刊行:010-63245081大色哥导航