首页>本刊特稿

“柳夜熙”热潮

2022-01-04 14:51:00 【关闭】 【打印】

  不久前,一个默默无闻的抖音新号“柳夜熙”发布了一条题为《现在,我看到的世界,你也能看到了》的视频。短短两分钟的时间,赛博朋克和奇幻古风的场景交叉上演,借着Facebook改名Meta的“东风”,一下打开了数百万观众的“元宇宙”想象。 

  这大概是虚拟人第一次如此高调地进入大众视野。“柳夜熙”首发视频在当晚5小时内获赞247.7万,创造了两条视频涨粉500万的“奇迹”。#柳夜熙 #柳夜熙是谁 #当美妆遇上元宇宙……各种相关话题在抖音上已有超过10亿次播放,向大众普及“虚拟人”“元宇宙”可谓功不可没。 

  事实上,虚拟偶像并不是全新概念。最早的虚拟偶像鼻祖要算2007年出现的“初音未来”。这是由日本雅马哈公司以语音合成程序为基础开发的虚拟少女偶像,有着官方设定的水蓝色头发和眼睛,穿着水手服,动人的声音能唱无数首歌曲,在二次元文化盛行的日本社会可谓家喻户晓,甚至跟Lady Gaga同过台。 

  2004年,雅马哈开发出语音合成核心引擎Vocaloid,这就是后来初音未来和中国第一位虚拟歌手“洛天依”的核心。作为目前最主流的语音合成方式,Vocaloid采用的是“拼接合成”技术来进行电子音乐制作。基础声音数据则来自于配音演员,使用者只要输入音符和歌词即可生成一首歌曲,并且可以通过更改音调、调整参数对“歌声”进行微调,模拟出类似人的呼吸、口型甚至颤音。原本破碎的声音数据,就这样变成了连贯的电子声音。 

  采用这种方式来创作,可以实现对歌曲最精确的控制,但另一方面,也很需要作者调整各项参数的功力。Vocaloid就像一把乐器,创作者拥有完全的自由。 

  随着AI技术的进步,新一代的“虚拟歌姬”开始了更深的进化。比如首位签约华纳、正式发行单曲的虚拟音乐艺人“哈酱”就是首个AI仿真人声,采用了微软智能语音定制技术,背靠强大的神经网络语音模型,累积、分析了人类语音的各种元素比如音色、年龄、口音、韵律等等。在这样的一个“胚子”上精雕细刻,不断训练数据,最终形成了属于“哈酱”自己的中文语音音色。虽然“哈酱”拥有叙述、新闻、客服等15种风格,可以挑战真人做不到的音调和语速,堪称是一个十分丰富的人声模型,但情感演绎仍然是AI界的超级难题。 

  此次迅速出圈的柳夜熙,实现了仿真虚拟人在短视频上的首次尝试。按照出品公司的说法,这是一个2.5次元的形象设计,处于二次元动漫形象和三次元的真实世界人物形象之间的位置。 

  其实这类“超仿真”形象的后期开发过程非常漫长,需要高水准的原画设计、高写实的3D建模、高效率的虚拟人引擎、高精度的动作捕捉、高清晰的修帧渲染。每个步骤都耗时耗力,几乎就是用金钱和技术堆出来的“宝贝”。 

  柳夜熙的连贯动作也和背后的演员分不开。由于纯动画的特效制作成本高昂,所以虚拟人普遍采用真人动作捕捉技术,即由行动演员穿着包含多个传感器节点的动捕服,将他们的动作嫁接到角色身上。超高精度的动态捕捉甚至可以捕捉到演员眼球的颤动。 

  AI技术甚至还能弥补动作捕捉的不足。以面部表情为例,假设通过摄像头能够定位演员面部的150个跟踪点,AI可以通过面部表情大数据训练,由150个跟踪点推导出40000个点,从而模拟出更精细的表情。 

  从本质上讲,柳夜熙确实是一个出色的后期特效作品,但也仅此而已。作为虚拟人物,柳夜熙类似于游戏、电影中的角色,不能和观众互动,进行有逻辑、有个性的交互和反馈,更别提像人一样思考和学习了。 

  这就是虚拟偶像难以走出2.5次元的原因—能够为观众带来新的视觉、听觉体验,但刺激过后总让人感觉到空虚。像人一样,这四个字简简单单,代表的是人们对下一代AI的沉重期待和漫长探索。虚拟偶像能否突破次元壁,也将在此一举。 

分享到:
下一篇 责任编辑:

微信关注 今日中国

微信号

1234566789

微博关注

Copyright © 1998 - 2016

今日中国杂志版权所有 | 京ICP备:0600000号