麻省理工的智能语音,可以让彩虹小马说“我爱北京天安门”了

小马同人即将迎来新的高峰。

文本智能生成语音的 TTS 系统现在已经挺成熟的了。先进的 TTS 系统早就脱离了单纯的 " 机械棒读 ",通过人工智能辅助训练,在音调和语气上已经十分接近真人。

最近,MIT 一位 AI 研究员的成果,把 TTS 往前又推进了一步。他编写的新 AI,极大缩短了训练需要的样本数量。最少只要 30 分钟的语音素材,就可以用文本生成质量极高的语音。

也就是说,哪怕只是把游戏或者动画里某个角色的对话拆出来,跑一遍机器学习算法,AI 就能模仿游戏中角色的语气生成新的语音。

目前这个 AI 提供了几种范例音色,在网上可以供人任意尝试。有《传送门》里的大 Boss 机器人 GLADoS,有《小马宝莉》里的紫悦和柔柔,还有《史丹利寓言》里的旁白君。

其中,两个小马的配音质量是最让人震撼的,外网网友们普遍觉得这个 AI 已经十分接近动画里的语气和感觉了。当然这两个角色使用的训练素材也是最多的,除了全部的 9 季动画,据说还 " 通过各种手段 " 拿到了无背景音的配音原声。用这个 AI 生成的语音自制粉丝剧情,代入感肯定十足。

网友透露小马的音色素材质量和数量都是最好的

其次就是 GLADoS,人工智能去学习人工智能呆板脱线的语气,传统艺能玩得有模有样。《史丹利寓言》的旁白和其他几个声线,可能因为是人类语气,素材又少了点,最终的效果还是稍微差一些。

这个 AI 最大的缺陷还阅读能力不太过关。根据作者的说明,AI 对于多音字的处理比较愚蠢。比如 " 玩家 " Gamer 这个词,你打 "Gamer",AI 就会念成 " 嘎们儿 "。非得要打成 "Gaymer",它才能念对。

AI 的阅读能力比较呆板,需要用技巧辅助发音

我调戏了一下这个 AI,想要试试能不能教小马紫悦说两句中文。我们尝试了好几次,发现紫悦在说 " 我爱北京天安门 " 的时候,发音和语气不能两全。语气很象样的时候,发音不太对。发音调对了,语气又变得有点奇怪了。看来中文对小马驹来说还是太难了点。

网站上还有两个非常奇怪的范例角色:一个是《传说之下》里的骷髅人 Sans,另一个是《传送门》里的主角 Chell。如果你很好奇这俩人是怎么 TTS 的,那么恭喜你发现了重点。

???

下面是我教小马说中文的视频:

如果你也想试试这个 TTS 的话,可以点击 " 阅读原文 ",选择第二栏 "App" 可以调戏 AI,第三项 "Examples" 可以听听作者精选的几条语音,效果确实非常棒。