“柳夜熙”热潮

2022-01-04 14:51:00 【关闭】【打印】【大中小】

　　不久前，一个默默无闻的抖音新号“柳夜熙”发布了一条题为《现在，我看到的世界，你也能看到了》的视频。短短两分钟的时间，赛博朋克和奇幻古风的场景交叉上演，借着Facebook改名Meta的“东风”，一下打开了数百万观众的“元宇宙”想象。

　　这大概是虚拟人第一次如此高调地进入大众视野。“柳夜熙”首发视频在当晚5小时内获赞247.7万，创造了两条视频涨粉500万的“奇迹”。#柳夜熙 #柳夜熙是谁 #当美妆遇上元宇宙……各种相关话题在抖音上已有超过10亿次播放，向大众普及“虚拟人”“元宇宙”可谓功不可没。

　　事实上，虚拟偶像并不是全新概念。最早的虚拟偶像鼻祖要算2007年出现的“初音未来”。这是由日本雅马哈公司以语音合成程序为基础开发的虚拟少女偶像，有着官方设定的水蓝色头发和眼睛，穿着水手服，动人的声音能唱无数首歌曲，在二次元文化盛行的日本社会可谓家喻户晓，甚至跟Lady Gaga同过台。

　　2004年，雅马哈开发出语音合成核心引擎Vocaloid，这就是后来初音未来和中国第一位虚拟歌手“洛天依”的核心。作为目前最主流的语音合成方式，Vocaloid采用的是“拼接合成”技术来进行电子音乐制作。基础声音数据则来自于配音演员，使用者只要输入音符和歌词即可生成一首歌曲，并且可以通过更改音调、调整参数对“歌声”进行微调，模拟出类似人的呼吸、口型甚至颤音。原本破碎的声音数据，就这样变成了连贯的电子声音。

　　采用这种方式来创作，可以实现对歌曲最精确的控制，但另一方面，也很需要作者调整各项参数的功力。Vocaloid就像一把乐器，创作者拥有完全的自由。

　　随着AI技术的进步，新一代的“虚拟歌姬”开始了更深的进化。比如首位签约华纳、正式发行单曲的虚拟音乐艺人“哈酱”就是首个AI仿真人声，采用了微软智能语音定制技术，背靠强大的神经网络语音模型，累积、分析了人类语音的各种元素比如音色、年龄、口音、韵律等等。在这样的一个“胚子”上精雕细刻，不断训练数据，最终形成了属于“哈酱”自己的中文语音音色。虽然“哈酱”拥有叙述、新闻、客服等15种风格，可以挑战真人做不到的音调和语速，堪称是一个十分丰富的人声模型，但情感演绎仍然是AI界的超级难题。

　　此次迅速出圈的柳夜熙，实现了仿真虚拟人在短视频上的首次尝试。按照出品公司的说法，这是一个2.5次元的形象设计，处于二次元动漫形象和三次元的真实世界人物形象之间的位置。

　　其实这类“超仿真”形象的后期开发过程非常漫长，需要高水准的原画设计、高写实的3D建模、高效率的虚拟人引擎、高精度的动作捕捉、高清晰的修帧渲染。每个步骤都耗时耗力，几乎就是用金钱和技术堆出来的“宝贝”。

　　柳夜熙的连贯动作也和背后的演员分不开。由于纯动画的特效制作成本高昂，所以虚拟人普遍采用真人动作捕捉技术，即由行动演员穿着包含多个传感器节点的动捕服，将他们的动作嫁接到角色身上。超高精度的动态捕捉甚至可以捕捉到演员眼球的颤动。

　　AI技术甚至还能弥补动作捕捉的不足。以面部表情为例，假设通过摄像头能够定位演员面部的150个跟踪点，AI可以通过面部表情大数据训练，由150个跟踪点推导出40000个点，从而模拟出更精细的表情。

　　从本质上讲，柳夜熙确实是一个出色的后期特效作品，但也仅此而已。作为虚拟人物，柳夜熙类似于游戏、电影中的角色，不能和观众互动，进行有逻辑、有个性的交互和反馈，更别提像人一样思考和学习了。

　　这就是虚拟偶像难以走出2.5次元的原因—能够为观众带来新的视觉、听觉体验，但刺激过后总让人感觉到空虚。像人一样，这四个字简简单单，代表的是人们对下一代AI的沉重期待和漫长探索。虚拟偶像能否突破次元壁，也将在此一举。

分享到：