一、技术方面
(1)动作捕捉技术
光学动作捕捉:通过在特定空间设置多个高精度摄像头,从不同角度对人体进行拍摄。这些摄像头能够捕捉人体表面反射的红外光线标记点的位置变化。例如,当人做出一个挥手的动作时,贴在手腕、肘部等关节位置的标记点位置会随着动作而改变,摄像头将这些标记点的三维空间位置信息实时传输到计算机系统。这种技术精度很高,能够捕捉到非常细微的动作,比如手指的轻微弯曲,但对环境要求较为严格,需要在专门的动作捕捉场地进行,并且标记点可能会对动作产生一定的干扰。
惯性动作捕捉:利用惯性传感器(如加速度计、陀螺仪等)来测量人体各部位的运动状态。传感器通常被穿戴在身体的各个关键部位,如四肢、腰部等。当人体运动时,这些传感器会记录下运动的加速度、角速度等信息,并通过无线传输方式发送到计算机进行处理。惯性动作捕捉系统相对灵活,不受场地限制,但精度可能略低于光学动作捕捉,并且长时间使用可能会因为传感器的累积误差而导致数据偏差。
基于计算机视觉的无标记动作捕捉:利用普通摄像头(如RGB摄像头),通过计算机视觉算法来分析人体的外形和动作。这种技术不需要在人体上贴标记点,而是直接从视频图像中提取人体的骨骼结构和动作信息。例如,通过深度学习算法对人体姿态进行估计,识别出人体的关节点位置,进而还原动作。它的优势是使用方便,但精度在复杂场景下可能会受到影响,比如当人体部分被遮挡或者光线条件不佳时。

(2)表情捕捉技术
面部动作编码系统(FACS):这是一种基于解剖学的表情分析方法。它将面部表情分解为多个独立的动作单元(AUs),每个动作单元对应着特定的面部肌肉运动。例如,AU1(内眉上扬)和AU2(外眉上扬)分别代表不同的眉毛动作,通过对这些动作单元的组合和量化,可以精确地描述各种复杂的表情。在数字人定制中,通过捕捉这些动作单元的变化,将其应用到数字人的面部模型上,实现表情的还原。
基于传感器的表情捕捉:使用特殊的传感器来捕捉面部表情。例如,在演员的面部贴上应变片传感器,这些传感器能够感知面部肌肉的拉伸和收缩,将肌肉运动转化为电信号。或者使用肌电图(EMG)技术,通过电极检测面部肌肉的电活动,从而获取表情信息。这种技术能够直接获取肌肉运动的信息,但可能会对用户造成一定的不适感,并且传感器的布置和校准需要专业人员操作。
基于计算机视觉的表情捕捉:类似于无标记动作捕捉,通过摄像头和计算机视觉算法来分析面部表情。利用深度学习模型,如卷积神经网络(CNN),可以从面部图像或视频中自动提取表情特征。例如,模型可以识别出眼睛的眯起程度、嘴角的上扬角度等表情细节,然后将这些特征映射到数字人的面部模型上,实现表情的生成和还原。这种方法具有非侵入性、方便快捷的优点,但在表情的细微变化捕捉上可能还需要进一步提高精度。
(3)人工智能驱动的动画技术
深度学习模型用于动作和表情生成:利用生成对抗网络(GAN)、变分自编码器(VAE)等深度学习模型,通过大量的动作和表情数据进行训练,使数字人能够生成自然流畅的动作和表情。例如,训练一个GAN模型,其中生成器用于生成数字人的动作或表情序列,判别器用于判断生成的序列是否真实。通过不断的对抗训练,生成器能够学习到真实动作和表情的分布规律,从而生成高质量的动作和表情。
强化学习用于优化动作和表情策略:在数字人的动作和表情控制中,强化学习可以用于优化动作和表情的选择策略。例如,根据用户的反馈或者特定的目标(如使数字人的动作更加自然、表情更加吸引人),数字人可以通过强化学习算法来调整自己的动作和表情,以获得更好的表现效果。

二、流程方面
(1)数据采集阶段
动作数据采集:如果采用动作捕捉技术,首先要让被采集者穿上动作捕捉服或者在身上贴上标记点(对于光学动作捕捉),或者佩戴惯性传感器(对于惯性动作捕捉)。然后被采集者开始做出标志性的动作,如舞蹈动作、教学手势等,在动作过程中,动作捕捉设备会记录下相应的数据。对于基于计算机视觉的无标记动作捕捉,被采集者只需要在摄像头的拍摄范围内正常做出动作,系统就会自动记录动作数据。
表情数据采集:对于基于传感器的表情捕捉,需要在被采集者的面部贴上传感器或者安装电极来收集表情数据。在基于计算机视觉的表情捕捉中,被采集者面对摄像头,做出各种表情,如微笑、皱眉、惊讶等,摄像头会拍摄面部表情的视频,作为表情数据。采集的表情数据应该涵盖各种情绪状态和表情强度,以保证数字人能够生成丰富多样的表情。
(2)数据处理阶段
动作数据处理:对于动作捕捉得到的数据,需要进行数据清洗和校准。例如,去除光学动作捕捉中的标记点遮挡或错误识别的数据点,或者对惯性动作捕捉中的传感器误差进行校准。然后将处理后的动作数据映射到数字人的骨骼模型上,通过骨骼绑定技术,使数字人的骨骼系统能够按照采集的动作数据进行运动。这一过程可能需要进行复杂的数学计算和动画关键帧设置,以确保数字人的动作流畅自然。
表情数据处理:对于表情捕捉得到的数据,根据采用的技术进行相应的处理。如果是基于FACS的表情数据,需要将动作单元的量化数据转换为数字人面部模型的肌肉运动参数。对于基于计算机视觉的表情数据,需要通过深度学习模型提取表情特征,并将其转换为数字人面部模型能够理解的表情指令。在处理过程中,还需要对表情数据进行归一化和标准化处理,以确保不同表情之间的连贯性和协调性。

(3)模型训练与融合阶段
动作和表情模型训练:将处理后的动作和表情数据作为训练样本,用于训练数字人动作和表情生成模型。例如,使用深度学习算法对数字人的动画控制器进行训练,使其能够根据输入的动作和表情指令,生成准确的动作和表情动画。在训练过程中,需要设置合理的模型参数和训练策略,如选择合适的损失函数、优化算法等,以提高模型的训练效率和准确性。
动作和表情融合:在数字人的实际应用中,动作和表情通常是相互配合的。因此,需要将动作模型和表情模型进行融合,使数字人在做出动作的同时能够自然地呈现相应的表情。例如,当数字人伸手拿东西时,同时会有自然的眼神注视和手部肌肉紧张的表情。这一融合过程需要对动作和表情的时间轴进行同步,以及对动作和表情之间的交互关系进行建模和优化。
(4)测试与优化阶段
内部测试:在将定制的标志性动作和表情应用到数字人后,需要进行内部测试。让数字人在虚拟场景中重现标志性动作和表情,检查动作是否流畅、表情是否自然、动作和表情的配合是否协调等。例如,观察数字人在做出复杂舞蹈动作时,是否有肢体穿透、动作卡顿等问题,以及在表情变化过程中,是否有面部肌肉异常拉伸等不自然的现象。
用户反馈与优化:将数字人展示给用户或者相关人员,收集他们的反馈意见。根据反馈,对动作和表情进行优化调整。例如,如果用户觉得数字人的某个手势动作不够自然,需要重新检查动作捕捉数据或者调整动作模型的参数,直到数字人的动作和表情达到满意的效果。
免费文章,允许转载!转载时请注明来源:【小钉教科】(xdjk.cn)
支持原创、保护作者权益、激发创作动力。