首页 > 资讯 > 国际 > 正文
2024-02-12 23:11

谷歌的新AI可以听到一小段歌曲,然后继续播放

新的人工智能系统可以在几秒钟的音频提示后产生自然的声音和声音。

谷歌研究人员开发的AudioLM可以产生与提醒风格相匹配的声音,包括钢琴音乐或人声等复杂的声音,在某种程度上与原始记录几乎没有区别。这项技术在加速人工智能生成音频的训练方面显示出了前景,它最终可能被用于自动生成视频伴奏的音乐。

(所有的例子都在这里。)

人工智能生成的音频已经无处不在:Alexa等家庭助手的声音使用自然语言处理。像OpenAI的Jukebox这样的人工智能音乐系统已经产生了令人印象深刻的结果,但目前大多数技术都需要人们根据文本准备转录和标记训练数据,这需要大量的时间和人力。例如,Jukebox使用基于文本的数据生成歌词。

上个月的一篇非同行评议论文中描述的AudioLM则不同:它不需要转录或标记。相反,将一个音频数据库输入到程序中,然后使用机器学习将音频文件压缩为音频剪辑,称为“令牌”,而不会丢失太多信息。然后将这些加密的训练数据输入机器学习模型,该模型使用自然语言处理来学习音频样本。

为了生成声音,将几秒钟的音频输入AudioLM,然后预测接下来会发生什么。这一过程类似于GPT-3等语言模型预测经常彼此紧跟着的句子和单词的方式。

团队发布的声音片段听起来很自然。特别是,用AudioLM创作的钢琴音乐,比用现有AI技术创作的钢琴音乐听起来更流畅。

卡内基梅隆大学(CarnegieMellonUniversity)研究计算机生成音乐的罗杰·丹南伯格(RogerDannenberg)说,AudioLM的音质比以前的音乐创作程序好得多。特别是,他说,AudioLM非常擅长重新创造一些人类音乐固有的重复模式。为了创造真正的钢琴音乐,AudioLM必须捕捉到钢琴键敲击时每个音符中出现的许多细微的震动。音乐也必须在一段时间内保持它的节奏和和谐。

丹嫩伯格说:“这确实令人印象深刻,部分原因是这表明它们在很多层面上都在学习某种结构。”

AudioLM不仅仅局限于音乐领域。因为它是根据人类说句子的录音库进行训练的,该系统还可以使用原说话者的声音和节奏生成语音延续——尽管在这一点上,这些句子仍然可能像句子一样,不跟随,不产生任何句子。有意义的。AudioLM经过训练,可以学习哪些类型的音频剪辑经常同时出现,它使用相反的过程来生成句子。它还有一个优点是能够学习口语中固有的停顿和感叹号,但不容易翻译成文本。

在东北大学(NortheasternUniversity)研究语音和信息科学的鲁帕尔·帕特尔(RupalPatel)表示,以前使用人工智能产生声音的工作,只有在数据中清楚地标注了这些细微差别的情况下,才能捕捉到这些细微差别。火车。相比之下,AudioLM从输入数据中自动学习这些特征,这增加了实际效果。

“有很多我们可能称之为语言信息的东西并不存在于你的发音中,而是存在于另一种交流方式中,这种交流方式基于你如何表达特定的意图或感受。具体的情感,”AudioLM的联合创始人尼尔·齐格杜尔(NeilZeghidour)说。例如,某人可能会在说了某件事后大笑,表明这是一个笑话。“所有这些都让说话变得自然,”他说。

最后,人工智能生成的音乐可以用来为视频和幻灯片提供更自然的配乐。帕特尔说,创造更自然声音的技术可以帮助改善在医疗环境中工作的互联网接入辅助设备和机器人。该团队还希望创造更复杂的声音,比如用不同乐器的乐队或模仿雨林录音的声音。

然而,这项技术的伦理影响需要考虑,帕特尔说。尤其重要的是,要确定制作用于训练数据的剪辑的音乐家是否会从最终产品中获得学分或版税——这是翻译人工智能产生的问题。复制图像。人工智能生成的与现实难以区分的语音也会变得非常有说服力,从而更容易传播错误信息。

在论文中,研究人员写道,他们正在研究并致力于缓解这些问题——例如,通过开发技术来区分自然声音和用AudioLM产生的声音。帕特尔还建议在人工智能生成的产品中加入音频水印,使它们更容易与自然声音区分开来。