我们正在走向计算机生成语音的革命,而微软创始人比尔盖茨的语音克隆就说明了原因。

在下面嵌入的剪辑中,你可以听到盖茨在一系列无害的短语中徘徊。“一次抽筋对游泳来说不小,”他警告说。“给你珍惜的朋友写一封喜爱的音符,”他建议道。但是每个语音片段都是由一个名为MelNet的机器学习系统生成的,由Facebook的工程师设计和创建。

事实上,盖茨是MelNet可以模仿的极少数人中最着名的。其他人,包括乔治·武井,珍·古道尔和斯蒂芬·霍金,可听到这里标题下的“选择扬声器”。

现在你可能想知道为什么研究人员选择复制这样一组STEM-y扬声器。嗯,简单的答案是,用于训练MelNet的资源之一是452小时的TED演讲数据集。其余的训练数据来自有声读物,因为扬声器的“高度动画方式”是一个具有挑战性的目标。

现在,这些音频样本无疑是令人印象深刻的,但MelNet并不完全是蓝色的。最近几年,语音克隆的质量一直在稳步提高,最近播放的播客乔罗根(Joe Rogan)的复制品正好证明了我们到底有多远。这一进展大部分可以追溯到2016年,推出了SampleRNN和WaveNet,后者是由位于伦敦的人工智能实验室DeepMind创建的机器学习文本到语音转换程序,该实验室现在为Google智能助理提供支持。

WaveNet,SampleRNN和类似程序的基本方法是为AU系统提供大量数据,并用它来分析人声中的细微差别。(较旧的文本到语音系统不会生成音频,但会重新构建它:将语音样本切割成音素,然后将它们拼接在一起以创建新单词。)但是当WaveNet和其他人使用音频波形进行训练时,Facebook的MelNet使用学习说话的更丰富,信息更密集的格式:频谱图。

在一篇随附的论文中,Facebook的研究人员指出,虽然WaveNet产生更高保真的音频输出,但MelNet在捕捉“高级结构”方面更胜一筹 - 说话者的声音中包含的微妙的一致性,具有讽刺意味的是,几乎无法用文字描述,但是人的耳朵很好地适应了。

他们说这是因为频谱图中捕获的数据比音频波形中的数据“更紧凑”。这种密度允许算法产生更一致的声音,而不是被波形记录的极端细节分散和磨练(使用过于简单的人类比喻)。

但是有一些限制。最重要的是,该模型无法复制人类声音在较长时间内的变化; 例如,在文本的段落或页面上构建戏剧或张力。有趣的是,这类似于我们在AI文本生成中看到的约束,它捕获了表面级别的一致性,而不是长期结构。

抛开这些警告,结果非常好。更令人印象深刻的是,MelNet是一个多功能系统。它不仅可以产生逼真的声音,还可以用于生成音乐(虽然有时候输出有点狡猾,但它似乎不能以一种使其具有商业用途的方式塑造和雕刻)。

与以往一样,这项技术也有好处和危险。好处?更高质量的AI助手; 具有语言障碍的人的现实语音模型; 以及娱乐业的一系列用途。危险?如何破坏对传统证据形式的信任,以及音频骚扰,诈骗和广泛诽谤的可能性?基本上AI假装的所有乐趣。只需将它与最近的研究配对,即可通过输入新的语音来编辑某人在视频中所说的内容,并且可能性无穷无尽。