首页编程正文内容

AI成真:虚拟数字人走进生活

编程

更新时间：2025-06-08 15:06:39 32

admin 管理员组

文章数量: 1087139

2024年3月21日发(作者：swift教程入门)

AI成真：虚拟数字人走进生活

作者：罗道

来源：《电脑报》2020年第50期

虚拟数字人，是存在于数字世界的“人”，通过动作捕捉、三维建模、语音合成等技术高度

还原真实人类，再借助AR/MR/VR等终端呈现出来的立体“人”。在人工智能、虚拟现实等新

技术浪潮的带动下，虚拟数字人制作过程得到有效简化、各方面性能获得飞跃式提升。

“虚拟数字人”一词最早源于 1989 年美国国立医学图书馆发起的“可视人计划”（Visible

Human Project， YHP）。这些“虚拟数字人”主要是指人体结构的可视化，以三维形式显示人

体解剖结构的大小、形状、位置及器官间的相互空间关系，即利用人体信息，实现人体解剖结

构的数字化。主要应用于医疗领域的人体解剖教学、临床诊疗等。

该技术在发展中拓展到高保真数字人的技术边界，在电影技术应用中得到拓展，提升了电

影和游戏开发的商业机遇，主要应用的技术包括：照相建模、实时捕捉。

虚拟数字人的发展与其制作技术的进步密不可分，从最早的手工绘制到现在的 CG

（Computer Graphics，电脑绘图）、人工智能合成，虚拟数字人大致经历了萌芽、探索、初级

和成长四个阶段。行业人士称，不久的将来，现实世界中的每一个地方和事物——每一条街

道、每一个灯柱、每一栋建筑物和每一个房间都会在镜像世界中拥有它的全尺寸“数字孪生兄

弟”。

20 世纪 80 年代，人们开始尝试将虚拟人物引入到现实世界中，虚拟数字人步入萌芽阶

段。该时期虚拟数字人的制作技术以手工绘制为主，应用极为有限。1982 年，日本动画《超

时空要塞》播出后，制作方将女主角林明美包装成演唱动画插曲的歌手，并制作了音乐专辑，

该专辑成功打入当时日本知名的音乐排行榜 Oricon，林明美也成为了世界上第一位虚拟歌姬。

1984年英国人 George Stone 创作出一个名为Max Headroom的虚拟人物，Max拥有人类的

样貌和表情动作，身穿西装，佩戴墨镜，曾参演了一部电影，拍摄了数条广告，一度成为英国

家喻户晓的虚拟演员。由于技术的限制，其虚拟形象是由真人演员通过特效化妆和手绘实现。

21 世纪初，传统手绘逐渐被 CG、动作捕捉等技术取代，虚拟数字人步入探索阶段。该阶

段的虚拟数字人开始达到实用水平，但造价不菲，主要出现在影视娱乐行业，如数字替身、虚

拟偶像等。电影制作中的数字替身一般利用动作捕捉技术，真人演员穿着动作捕捉服装，脸上

点上表情捕捉点，通过摄像机、动作捕捉设备将真人演员的动作、表情采集处理，经计算机处

理后赋予给虚拟角色。

《指环王》中的角色咕噜就是由 CG 技术和动作捕捉技术产生，这些技术后续还在《加勒

比海盗》《猩球崛起》等电影制作中使用。之后日本还制作了第一个被广泛认可的虚拟数字人

“初音未来”，初音未来是二次元风格的少女偶像，早期的人物形象主要利用 CG 技术合

成，人物声音采用雅马哈的VOCALOID系列语音合成，呈现形式还相对粗糙。

近五年，得益于深度学习算法的突破，数字人的制作过程得到有效简化，虚拟数字人开始

步入正轨，进入初级阶段。该时期人工智能成为虚拟数字人不可分割的工具，智能驱动的数字

人开始崭露头角。

迈克斯·泰格在《生命LIFE 3.0》一书中说，生命3.0是一个由人工智能重塑的时代。在这

个时代，我们可以设计自己的硬件和软件。

所谓的“像真人”，不外乎是运用“AI合成”技术。“虚拟主播”通过提取真人主播新闻播报视

频中的声音、唇形、表情动作等特征，运用语音、唇形、表情合成以及深度学习等技术联合建

模训练而成。

该项技术要能够将所输入的中英文文本自动生成相应内容的视频，并确保视频中音频和表

情、唇动保持自然一致，展现与真人主播无异的信息传达效果。但在此之前，出现在大众媒体

上的虚拟主播，多半只有声音，或者匹配一个量身定制的虚拟形象，比如微软小冰在东方卫视

担任天气预报员就是如此。

要实现这样的效果，两大要求缺一不可。其一是高逼真度。要能够自动生成语音、表情、

唇动等信息完全一致的自然视频，并已达到商用级别。其二是低成本的个性化定制。小数据的

学习模型，使用少量用户真实音视频数据，快速迁移生成虚拟的分身模型，快速定制出高逼真

度的分身模型。最后，使用时输入一段文本，即可生成与真人无异的同步音视频。

除此之外，语音合成引擎和图像生成引擎也是重要的两点。在语音合成引擎中，基于用户

少量音频数据，使用语音合成技术，快速学习用户音色、韵律、情感等多维度特征，建立输入

文本与输出音频信息的关联。

图像生成引擎，则是使用人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行

特征学习和建模，建立输入文本、输出音频与输出视觉信息的关联映射，生成输出分身视频。

最后，两大引擎协作打磨，最终才能实现“AI合成主播”，能够逼真模拟人类说话的声

音、嘴唇动作和表情，并将三者自然匹配，做到惟妙惟肖，让机器以更逼真自然的形象呈现在

用户面前。

目前2D、3D 数字人均已实现嘴型动作的智能合成，其他身体部位的动作目前还只支持录

播。2D、3D 数字人嘴型动作智能合成的底层逻辑是类似的，都是建立输入文本到输出音频与

输出视觉信息的关联映射，主要是对已采集到的文本到语音和嘴型视频（2D）/嘴型动画

（3D）的数据进行模型训练，得到一个输入任意文本都可以驱动嘴型的模型，再通过模型智

能合成。

除了虚拟主播，电影产业也把虚拟数字人技术发挥到了极致，最常用的是基于 Marker

（马克点）的光学动作捕捉，即在演员身上粘贴能够反射红外光的马克点，通过摄像头对反光

马克点的追踪，来对演员的动作进行捕捉。这种方式对动作的捕捉精度高，但对环境要求也

高，并且造价高昂。光学式解决方案比较出名的企业有英国的Vicon、美国的 OptiTrack 和魔

神（MotionAnalysis），国内的有Nokov、uSens、青瞳视觉等。

惯性动作捕捉主要是基于惯性测量单元（Inertial Measurement Unit，IMU）来完成对人体

动作的捕捉，即把集成了加速度计、陀螺仪和磁力计的IMU 绑在人体的特定骨骼节点上，通

过算法对测量数值进行计算，从而完成动作捕捉。这种惯性动作捕捉方案价格相对低廉，但精

度较低，会随着连续使用时间的增加产生累积误差，发生位置漂移。

惯性式动捕方案的代表性企业有荷兰的 Xsens，以及国内的诺亦腾（Noitom）、幻境、国

承万通等。基于计算机视觉的动作捕捉主要是通过采集及计算深度信息来完成对动作的捕捉，

是近些年才兴起的技术。这种视觉动捕方式因其简单、易用、低价，已成为目前使用的频率较

高的动作捕捉方案，代表性产品有 Leap Motion、微软Kinect 等。

人体动态三维重建一直是计算机视觉、计算机图形学等领域研究的重点，主要采用摄像机

阵列采集动态数据，可重建高低频几何、纹理、材质、三维运动信息。

光场成像是计算摄像学领域一项新兴技术，它不同于现有仅展示物体表面光照情况的 2D

光线地图，光场可以存储空间中所有光线的方向和角度，从而生成场景中所有表面的反射和阴

影，这为人体三维重建提供了更加丰富的图像信息。

近年来 Mirosoft、Google、Intel、Facebook 等公司都在积极展开相关研究，其中 Microsoft

的 108 摄像机 MRstudio已经在全球各大洲均有建设;Google 的 Relightable 系统将结构光、动态

建模、重光照技术集成到一起，在一套系统中包含模型重建、动作重建、光照重建的全部功能;

国内清华大学、商汤科技、华为等也展开了相关研究，并取得国际水平的同步进展。

PBR（Physically Based Rendering，基于物理的渲染技术）渲染技术的进步以及重光照等

新型渲染技术的出现使数字人皮肤纹理变得真实，突破了恐怖谷效应。恐怖谷效应由日本机器

人专家森政弘提出，认为人们对机器人的亲和度随着其仿真程度增加而增高，但当达到一个较

高的临界点时，亲和度会突然跌入谷底，产生排斥、恐惧和困惑等负面心理。

数字人恐怖谷效应主要由数字人外表、表情动作上与真人的差异带来，其中外表真实感的

关键就是皮肤材质的真实感，无论是塑料感还是蜡像感都会给人类带来不适。在 PBR 技术出

现之前，限于相关软硬件的发展程度，所有的 3D 渲染引擎，更多的着重在于实现 3D 效果，

在真实感体现方面差强人意。

PBR 是基于真实物理世界的成像规律模拟的一类渲染技术的集合，它的关键在于微表面模

型和能量守恒计算，通过更真实的反映模型表面反射光线和折射光线的强弱，使得渲染效果突

破了塑料感。目前常见的几款 3D 引擎，如UnrealEngine 4、CryEngine 3、 Unity 3D 5，均有了

各自的 PBR实现。

电影里采用最广泛的的重光照技术（Relighting）是通过采集模拟多种光照条件的图像数

据，测算数字人表面光照反射特性，并合成出数字人模型在新的光照下的渲染结果。该技术在

2000 年初由南加州大学实验室创建LightStage 平台时提出，并开始了相关研究，目前已经经过

7代的迭代发展，已被成功应用到《阿凡达》《复仇者联盟》等众多经典影片的角色制作中。

国内清华大学、浙江大学也都建设了重光照系统，可以实现高精度人体光照采集与重建。

早期的实时渲染只能选择高度抽象和简化过的渲染算法，牺牲了画面质量。随着硬件能力

的提升和算法的突破，渲染速度、渲染效果的真实度、渲染画面的分辨率均大幅提升，在虚拟

人物实时渲染方面已经能做到以假乱真，这些都代表着未来的AI发展方向。

本文标签：数字技术虚拟动作

版权声明：本文标题：AI成真:虚拟数字人走进生活内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/b/1710950990a581068.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

AI成真:虚拟数字人走进生活

更多相关文章

深度技术系统详解及下载推荐

一文了解研究大脑的技术

Gartner2014年度的十大信息安全技术

2020年十大币预测_2020年的5种技术预测

2018年度10大新兴技术：人工智能、量子计算、增强现实等

十大开发技术

【2014】深度技术GHOST Win7 SP1 X64马年快速装机版

剑和沙盒 5 - Sandboxie的技术架构

发现数字财富的秘密之三：60分钟搞清楚数字技术ABC|链塔智库

Android工程师技术话术

上网行为管理：用户认证技术

[Web技术]用户信息管理系统

『GitHub项目圈选01』一款构建AI数字人项目开源了！自动实现音视频同步！

2020年，技术圈十大“翻车”事件！

华为路由器之BGP路由技术总结及配置命令（上）

基于matlab数字基带传输系统,通信原理基于MATLAB Simulink 基带传输系统仿真实现...

手撕包菜网站：开源DHT与搜索引擎技术的完美结合

解读软件架构的复杂性：业务和技术的双重挑战

外呼系统的四大技术原理，电销外呼系统常识

Windows7系统安装全流程详解与技术指南

发表评论

推荐文章

javascript - How do I add new highlight rules at runtime with Ace Code Editor? - Stack Overflow

nasm - Issue with Function Return Behavior in 8086 Monitor Code (C &amp; Assembly) - Stack Overflow

javascript - React Native version Mismatch - Native version: 0.59.5 - Stack Overflow

javascript - How to changeadd value of a certain row of an array using useState Hook in React - Stack Overflow

javascript - How do I get the address of the connected wallet with web3modal? - Stack Overflow

热门文章

iOS How to remove Login with Apple permission with code? - Stack Overflow

javascript - Monitoring User Sessions to Prevent Editing Conflict - Stack Overflow

javascript - Embedding EmberAngular apps into pre-existing site - Stack Overflow

javascript - How to render default value in ant design checkbox using boolean? - Stack Overflow

javascript - Iphone: Virtual keyboard don&#180;t hide after tapingclicking on &quot;Go&quot; Button - Stack Overflow

javascript - Print JSON to screen for use with cut and paste - Stack Overflow

javascript - How to load content for external URL in React? - Stack Overflow

javascript - How to add two &quot;on submit=&quot; values to a form? - Stack Overflow

服务器win10虚拟内存设置方法,win10虚拟内存怎么设置最好_win10虚拟内存设置多少好-win7之家...

java使用freemaker 导出word 包含分页，表格循环，word改xml格式化

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

Windows 安装和连接使用 PgSql数据库

cmd打开计算机D盘,Win7利用cmd命令进入d盘文件夹的操作方法

如何在VMare中制作Windows Embedded Standard 7 (WES 7)

开机、注销后自动登录Windows

【教程】Python Flask快速学习

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

nasm - Issue with Function Return Behavior in 8086 Monitor Code (C & Assembly) - Stack Overflow

javascript - Iphone: Virtual keyboard don´t hide after tapingclicking on "Go" Button - Stack Overflow

javascript - How to add two "on submit=" values to a form? - Stack Overflow