又火一个惊艳的AI项目,开源了!

大家好,我是 Jack。

现在开源的 AI 项目真是越来越多了,很多人感慨 xxx 还没玩明白呢,又出了个 xxx。

自从大语言模型火了之后,一些相辅相成的 AI 技术,都得到了快速的发展。

在 AI 声音克隆方向,现在不少公司的主攻方向是 few short learning 甚至是 zero short learning。

只需要参考一小段的音频片段,就能完美复刻语音,包括情绪、重音、节奏和语调等,甚至还能跨语言。

OpenVoice 就是其中之一,它是由 MyShell 公司开源的。

OpenVoice

这是官方宣传的效果:

主要用到了一个 TTS 模型 + 音色特征提取器,使用这种 encoder + decoder 的结构,控制音频的合成。根据参考音频,复刻音色。

又火一个惊艳的AI项目,开源了!

项目团队的主要贡献者,MyShell + 清华的组合:

  • Zengyi Qin at MIT and MyShell
  • Wenliang Zhao at Tsinghua University
  • Xumin Yu at Tsinghua University
  • Ethan Sun at MyShell

目前已经斩获 11k+ Star,对于 AI 声音克隆感兴趣的小伙伴,可以尝试下。

项目地址:

https://github.com/myshell-ai/OpenVoice

不过我看网上有小伙伴复现的效果虽然还可以,但不及 PR 视频宣传中的效果好,毕竟 PR 视频是 show good case,不晓得是不是开源放出来的模型不是最佳 checkpoints,坐等官方更新了。

MyShell 跟 HeyGen 一样,其实也是国人项目。MyShell 目前是主要做虚拟数字人陪伴的。

又火一个惊艳的AI项目,开源了!

显然,除了背后的 LLM 模型,TTS 技术也是关键技术之一。想要有更好的交互交流体验,还可以加更多的多模态技术,支持图片、视频聊天等。

audio2photoreal

其实要说开源,Meta 是真滴猛。

又火一个惊艳的AI项目,开源了!

除了耳熟能详的 llama、detectron、segment-anything 等,还有翻几页都翻不完的开源项目。

又火一个惊艳的AI项目,开源了!

绝对是“挖坑”小能手,最近 Meta 又挖了一个比较火的新坑 audio2photoreal。

功能简单来说就是,通过一段音频,就能驱动 3D 数字人。

比如先录制一段音频,这是你的声音。

又火一个惊艳的AI项目,开源了!

audio2photoreal 就能根据你的声音,驱动那个 3D 数字人。

又火一个惊艳的AI项目,开源了!

更多效果直接看视频吧:

不仅仅是口型、头部动作、肢体动作都一起驱动。

现在,大胆想象一下它的场景!

项目地址:

https://github.com/facebookresearch/audio2photoreal

若干年后,互联网上会不会出现一批拥有超强大脑的数字人主播?

好了,今天就聊这么多吧。我是热爱干货分享的 Jack,下期间~

又火一个惊艳的AI项目,开源了!·················END·················

原文始发于微信公众号(Jack Cui):又火一个惊艳的AI项目,开源了!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之家整理,本文链接:https://www.bmabk.com/index.php/post/202062.html

(0)
小半的头像小半

相关推荐

发表回复

登录后才能评论
极客之家——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!