1. 首页
  2. 教育
  3. 深度学习

基于Tacotron2和Transformer实现文字转声音的AI应用

近日,一个基于 Tacotron2 和 Transformer 实现文字转声音的 AI 应用——Uberduck.AI 破圈了,不少 TikTok 、YouTube 网红博主都在推荐这一神器。

近日,一个基于 Tacotron2 和 Transformer 实现文字转声音的 AI 应用——Uberduck.AI 破圈了,不少 TikTok 、YouTube 网红博主都在推荐这一神器。

YouTube 的网红音乐艺术创意机构 Herr Fuchs 发布了一首新歌,基于Uberduck.AI 合成了知名嘻哈歌手坎爷 Kanye West 的声音,并创作了这首《The Breakup》。

这首融合了流行音乐元素和 AI 技术的《The Breakup》一经发布,就收到了乐迷和开发者们的关注。

网友们盛赞这首歌的品质堪比坎爷本爷的作品,声线也如假包换,还有不少网友留言:「这首歌应该放到坎爷的新专辑里」、「我觉得这首秒杀了坎爷的其他歌」、「坎爷被打脸」等等。

▍UberDuck AI携语音合成技术出圈

这首听起来制作精良、几乎接近坎爷本人声线的歌曲,是在作词后,经由 Uberduck AI 将歌词文本转换为语音,这一步通过 Tacotron 2 将歌词生成语音,并进行声音风格迁移,对侃爷的声音进行模仿输出。

配合上 Herr Fuchs 的两位艺术家作曲和制作,最终形成了这首作品。

Uberduck AI(项目地址 https://uberduck.ai/)在官网中介绍,这是一个始于 2020 年的社区共建的开源项目,发起人希望可以打造一个友好、创意、开放的对话服务。

在 Uberduck AI 的官网上,只要输入语言文本,选择你想要模仿声音的角色,就可以生成他们的声音。

帮助 UberDuck AI 实现文本到语音生成的 Tacotron2 是 Google 发布的基于深度学习的端到端的语音生成模型,模型分为:具有注意力的循环序列到序列特征预测网络,该网络根据输入字符序列预测梅尔谱帧的序列,和 WaveNet 的修改版,可生成以预测的梅尔谱帧为条件的 time-domain waveform 样本,效果更接近自然人声。

基于Tacotron2和Transformer实现文字转声音的AI应用

Tacotron2 模型结构

Uberduck AI 通过 Discord 和 Github 维护项目,目前已经有 20 多个代码贡献者,近千名成员,开发者可以优化生成模型、贡献角色语音语料库,还可以为生成出的声音增加效果比如唱歌、说唱、语气等等。

在项目网站上可以选择模仿生成的角色,这些语音语料和模型优化,也都是由代码贡献者一起参与的。目前支持直接生成的角色,包括动画人物:米老鼠、海绵宝宝、疯狂动物城里的狐狸 Nick 等;还可以选择诸如神秘博士、小黄人等影视剧里的角色。

还可以选择游戏里的人物,比如《2077赛博朋克》里的银手、《侠盗猎车手》里的 NPC 还有超级玛丽。当然也包括现实中的知名人物,比如坎爷、阿姆和几位演员。

Uberduck 还开放了项目的 Colab,有兴趣的小伙伴可以继续深入了解:

基于Tacotron2和Transformer实现文字转声音的AI应用

▍词曲作者:瑞士的网红先锋艺术家

这首歌的成功,也依赖于词曲作者的不凡才华。

艺术家 Reto Hüttenmoser 和 Gina Pigagnelli 来自于瑞士苏黎世,两个人组成了 Herr Fuchs 这家创意广告机构,他们的主业是为汽车品牌商设计广告和营销方案,副业是 YouTube 上的网红博主。

这首《The Breakup》的歌词不仅非常符合 Hiphop 和 Rap 的审美标准,说唱歌词里还设计了非常有坎爷个人风格的表达,比如吐槽和卡戴珊的婚姻、竞选美国总统等等。

近期他们还创作了一首《Dogecoin Song – To the Moon 》(涨到月球——狗狗币之歌),获得 Elon Musk 的转发,在 YouTube 上播放量破百万次。

免责声明:本站旨在传递信息,不代表有传资讯的观点和立场。本站遵循行业规范,如转载您的文章未标注版权,请联系我们(QQ:78799268)改正。本站的原创文章,如若转载,请注明出处:http://www.ainoline.cn/jiaoyu/shenduxuexi/18657.html

发表评论

邮箱地址不会被公开。 必填项已用*标注

联系我们

在线咨询:点击这里给我发消息

邮件:78799268@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code