虚拟人漫谈技术篇

Estimated read time 1 min read

文|进击的唐猜

来源|人人都是产品经理
编辑导语:近些年CG技术、人工智能技术等的不断发展,催生了虚拟人概念的出现。虚拟人到底是什么呢?本文作者从身体、灵魂、世界、人设等方面对虚拟人进行了分析,一起来看一下吧。
01 虚拟人,新科技下的创世神话
想象一下,你是一个创世神,担负着创世的KPI,你要做点什么?
我想,你大概应该先构思好主角,再扔给主角一个世界。
主角首先是一个拥有大脑躯干四肢,眼睛鼻子嘴的生物,姑且把这种生物叫做“人”。
但仅仅这样还不够,每个人的身上还要加一点点灵魂,有的多一点风趣幽默,有的多一点审慎优雅,各有不同,才会丰富多彩。
最后,再给他们一个世界,赋予天空和大地,赋予植被和海洋,再来点可爱的小动物……这个创世任务的MVP,就差不多算完成了。
在人类的幼年时期,各个文明流域都相对独立地出现了创世神话,上古中国有盘古开天辟地,女娲抟土造人;《圣经》中有上帝七天创世,并在第六天创造了亚当夏娃的故事……一直以来,人类都对自己的起源充满了好奇与想象,创世神话,是人类对自身起源浪漫探索的开始。
这种对自身充满探索和向往的一直固化在我们的集体潜意识里,而在科技日渐发达的今天,我们正逐渐尝试用科技来拟合一个“人”的诞生过程,这就是“虚拟人”的概念。
“虚拟人”并不是一个常规意义的有血有肉的人,而是一个综合了多类技术而形成的,生活在数字世界中的“人”。虚拟人概念的催生,也正是得益于近些年来CG技术、人工智能技术等的不断发展。虚拟人是一个技术的综合体,是人类用科技拟合自身的浪漫探索与想象。
02 虚拟人是什么
虚拟人是什么呢?人类理解一个事物的时候往往喜欢首先探究它的概念。对于虚拟人这个概念,很多机构试图给出它的定义,或者是分类,比如有的认为可以分成“虚拟人”、“数字人”、“数字虚拟人”,有的认为可以分为“meta hunman”和“AI being”等等。
我本人没有那么权威,但也想给虚拟人下一个定义,这个定义是什么呢?那就是:当我提起“虚拟人”这个概念的时候,你的脑海里浮现出了什么?Bingo,那就是虚拟人!
其实,虚拟人本质上是对人的一种模拟,对“人”这个概念的解构,能帮助我们更好地认识虚拟人。如何赋予虚拟人更有价值的生命,也许就要先从对“人”的探索开始。接下来,我们就从一个“人”本身来出发,看看人由哪几个关键的部分组成。搞清楚了这个之后,针对每一个部分,再来聊一聊,虚拟人是如何通过多种多样的技术来拟合人类的。
03 「身体+灵魂」+「世界+人设」
何为人?针对这个问题,我先抛出一个我认知里的公式:
人=「身体+灵魂」+「世界+人设」
身体和灵魂,灵与肉,这是组成生命的唯二两个部分,我想这个结论应该是大多数人都能认可的。我这里说的身体可以译为body,主要是指我们自身上“有形”的那一部分,包括我们的躯干、四肢、手脚,以及看的见的表情动作等;相对的,灵魂可以译为soul,这里主要是指我们身上那些“无形”的部分,例如我们的感知、意识、知识、感情等。
有了身体与灵魂,我们可以说已经得到了一个“人”了,但仅仅这样还是不够的。马克思说过,“人是一切社会关系的总和”。一个人的社会属性很重要,对于虚拟人来说也是如此。
对于虚拟人的社会属性,我也把它简单概括为两个方面:世界和人设。世界代表外部环境,虚拟人也需要一个生活的空间,一个舞台,这是外界给TA的;人设代表内部环境,虚拟人也需要有社会属性,需要合适的外貌、技能、性格……这是TA回馈给外界的。那么,以上这四个元素是如何作用的,从技术的角度又是如何实现的,且听我细细道来。
1. 身体
从唯物的角度来看,身体是人必不可少的组成部分。这里,我把身体这个元素进一步拆成两个要素,分别是:静态+动态。
1)静态
指人的外观,对于真人而言,外观有高矮胖瘦、肤色、男女等区别,而对于虚拟人而言,还增加了“画风”这一维度,虚拟人的外观可以包括二次元、3D、超写实,甚至赛博朋克等,目前,虚拟人的外形主要靠美术设计师和3D建模师共同实现。
2)动态
指人的动作,一般来说,人的动态分为三个主要部分:
躯体动作面部表情口型动作这一点对于真人和虚拟人都是比较类似的(虚拟人暂时不涉及动耳朵、动头皮这种高级艺能)。虚拟人的动态主要依靠驱动技术来实现,目前驱动技术主要有真人驱动和AI驱动两种流派。
2. 灵魂
就像电影《心灵奇旅》里演的那样,灵魂也是一个人的重要组成部分。对于虚拟人来说,灵魂主要是通过AI技术来打造的。这里,我把灵魂也分成了几个要素:
1)感知
感知是人最生物性的层面,主要是和我们的五感有关,具体来说就是看、听、说三个部分,分别由眼睛、耳朵、嘴来负责,结合到AI能力,就是CV、ASR、TTS。
2)认知
认知是在感知的基础上进一步形成的思考能力,这里我把认知能力进一步分成两个方面,分别是理性的认知能力感性的认知能力,其中,理性的认知还可进一步分为知识储备、理解、决策三个层级的能力,对应于AI中的KG、NLP、ML;感性的认知主要指的是利用AI构建的情感识别功能。
3)创造
就像我们小学的时候会先学习汉字,学习造句,再学习写作文一样,创造是更高一级的智力活动,只有在进行过大量的学习之后,才能进行有效的创造,人如此,虚拟人亦如此,虚拟人的创造主要依赖于生成类的AI算法来进行输出。
3. 世界
对于一个人,我们要给他一个世界,一个舞台,这个人才算有了一个全面展示自己的空间,虚拟人亦如此,这个世界就是虚拟人生活的空间。关于世界,这里我也(强行)分成两个要素:
1)渲染
渲染就是让这个虚拟的“人”呈现在我们面前,渲染技术分为离线渲染、实时渲染等,渲染技术的选型会直接影响虚拟人的呈现效果,你看到的是4k还是1080p与它有直接关系,渲染技术很大程度上决定了虚拟人演出的舞台效果。
2)终端
虚拟人没有物质性的实体,目前阶段我们必须借助终端才能看到它,现在可以承载虚拟人终端的设备数量越来越多,移动端、IoT、VRAR等都有大量的空间。在未来,虚拟人技术也有可能真正和实体机器人进行结合,变身成真正几乎“以假乱真”的智能体。
4. 人设
我们总说明星有人设,其实每个人都有人设。人生在世,谁又能时时刻刻保持自己永远都是一个耿直的real boy/real girl呢?我们在面对家人、朋友、同事时,甚至会换上不同的人设。对于虚拟人而言,这也是一样的,而且由于虚拟人现在还比较「笨」,不能像真实的小精灵鬼们一样多种人设无缝切换,因此,对于每一个虚拟人而言,打造一个专有场景的专有人设至关重要。
人设就是面向社会和公众在特定场景下所表现出来的品牌、IP等,一个好的人设,不仅仅需要合适的外形风格、肢体动作,也需要合适的知识储备、谈吐风格、甚至创作风格。人设不是一个技术类的概念,它更偏向于产品和运营方面。
运营好一个IP类虚拟人,和经纪公司运营一个明星的道理是一样的,甚至有更大的难度,而拥有好的人设IP运营sense的企业在虚拟人赛道甚至元宇宙时代里脱颖而出的概率也是极大的。
以上,就解释清楚了我自己对于虚拟人定义的逻辑框架:
人=「身体+灵魂」+「世界+人设」
其逻辑脑图如下图所示
接下来,我将依照这个逻辑分别简单展开陈述一下相关的技术向内容。
04 身体
「身体」又被我进一步分成了两个要素:静态与动态。静态就是我们的外壳,包括头、躯干、四肢等,动态就是身体的动作,面部的表情,说话时的嘴形等。
对于一个真实的人来说,这一切都是来的自然而美妙,我们的身体由母亲孕育而来,体内有无数的神经细胞控制着每一块肌肉的运动,身体和灵魂是一个有机的整体。但对于虚拟人而言,这一切就没那么自然了,全要倚赖人类的设计。其中,静态外形的诞生主要依赖于各种建模技术;动态的产生则要依赖各类驱动技术。
对于虚拟人而言,想让静态和动态联动起来,二者之间必须的一个桥梁就是绑定,通过对身体各个骨点的绑定,来达到控制各个身体部分动起来的目的,如下图所示:
1. 静态
静态外形的诞生主要依赖于各种建模技术,目前的建模方式主要有以下几种:
3D软件建模仪器采集建模自动化建模建模方式一:3D软件建模
指通过3D建模软件来人工塑造出3D的模型,该方式人工制作周期较长,但效果可控,是目前应用最广泛的建模手段。
常用的3D建模软件有很多,主要有以下几类:
传统3D建模:3Dmax、Maya、blender等雕刻软件:zbrush、blender等程序化建模:houdini等其中,传统3D软件主要负责制作低模,雕刻软件可以辅助制作高模,限于篇幅原因,这里不做过多展开,总之,低模的特点是面数少,视觉效果一般,但所占计算资源少,运行速度快;高模则正好相反,面数多,视觉效果好,但占用资源多,容易卡顿。
下面这块砖头很好的解释了高模和低模的区别(雕刻软件的「雕刻」二字含义就是精细的雕出坑坑洼洼的细节,使其看上去更真实)。
现代建模流程中一般会使用“烘培”的方法,简单来说就是底层结构是低模,但是在低模的面上贴上高模的贴图,类似于「披着羊皮的狼」,达到一种看上去视觉效果很好,运行速度又快的效果。
手工建模有多种工作流程,主要的可以分成传统模式、次世代模式两种:
传统模式:大概流程是先作低模,然后直接手工画贴图,结构上的材质等信息全靠人手作画,这种方式只能做出比较的模型,做不出特别精致的效果。次世代模式:大概流程是先做低模,然后用zbrush等软件做雕刻使其变成高模,然后再把各个面的贴图拆分,再烘焙回去,这样一来,模型结构是低模的,上面的贴图是逼真的高模渲染出来的,因此看上去既真实,又不卡内存,次世代模式可以做出非常精致的模型。3D建模技术涉及到计算机图形学、3D美术等多方面技术,限于篇幅和水平原因,这里叙述的比较浅显,日后如果有更多研究我会再进行更细致的补充。开个小差:很多小伙伴应该都听说过美术生会经常画素描,还会因此产生一些羞羞的联想,但其实我作为一个超业余美术爱好者,深知真的是很难画的,其难点主要有三:
真的很不规则,可以设想,你能见到的大部分物体都是比较规则的,想想你身边的床、柜子、桌椅板凳……出于工业设计与制造的方便,大多我们用到的物品都是由立方体、圆柱体等基本图形以及其组合而演变来的,而却是复杂的骨骼外面包裹了复杂的肌肉,既不是全方的也不是全圆的,哪怕是一条简单的胳膊也包含了微弱的高低起伏,因此是非常难以概括的。人的动态非常丰富,一个人的肢体活动是非常多变的,而多变的肢体活动带来的是肌肉的拉伸、挤压和复杂的透视,因此,想做出非常自然的虚拟人姿态难度是很大的,需要对各个肌肉及其联动的数据权重进行大量的微调,是需要非常丰富的建模及绑定经验的。人对人的敏感程度非常高,这就好比画一棵树,只要我画了一堆树叶上去,你可以完全不在乎树叶画的是不是和窗外那棵一模一样,只要能看出来是树,就可以了;对于人就不是这样了,世界上有这么多人,却很难找到两个长得一模一样的人,人对于人脸的敏感程度非常高,稍微不像就能看的明显,因此对于一些高保真的明星偶像的建模,也需要强大的美术功底才能支撑。建模方式二:仪器采集建模
相比于手工建模,仪器采集建模是通过仪器扫描的方式来进行建模。该方式成本较高,目前一般用于影视特效制作等领域居多。仪器采集建模技术分为静态扫描建模和动态光场重建:
静态扫描模型技术是目前的主流,可具体细分为结构光扫描重建与相机阵列扫描重建等。动态光场重建技术是目前重点发展的方向,不仅可以重建人物的几何模型,还可一次性获取动态的人物模型数据,并高品质重现不同视角下观看的光影效果,具有高视觉保真度。许多关于虚拟人的行研报告里都有关于以上两种技术的详细介绍,例如国海证券的《数字虚拟人——科技人文的交点,赋能产业的起点》中,「图表:主要建模技术概况」就概括的很。 

You May Also Like

More From Author