大家好,我是 Jack。
现在开源的 AI 项目真是越来越多了,很多人感慨 xxx 还没玩明白呢,又出了个 xxx。
自从大语言模型火了之后,一些相辅相成的 AI 技术,都得到了快速的发展。
在 AI 声音克隆方向,现在不少公司的主攻方向是 few short learning 甚至是 zero short learning。
只需要参考一小段的音频片段,就能完美复刻语音,包括情绪、重音、节奏和语调等,甚至还能跨语言。
OpenVoice 就是其中之一,它是由 MyShell 公司开源的。
OpenVoice
这是官方宣传的效果:
主要用到了一个 TTS 模型 + 音色特征提取器,使用这种 encoder + decoder 的结构,控制音频的合成。根据参考音频,复刻音色。

项目团队的主要贡献者,MyShell + 清华的组合:
-
Zengyi Qin at MIT and MyShell -
Wenliang Zhao at Tsinghua University -
Xumin Yu at Tsinghua University -
Ethan Sun at MyShell
目前已经斩获 11k+
Star,对于 AI 声音克隆感兴趣的小伙伴,可以尝试下。
项目地址:
https://github.com/myshell-ai/OpenVoice
不过我看网上有小伙伴复现的效果虽然还可以,但不及 PR 视频宣传中的效果好,毕竟 PR 视频是 show good case,不晓得是不是开源放出来的模型不是最佳 checkpoints,坐等官方更新了。
MyShell 跟 HeyGen 一样,其实也是国人项目。MyShell 目前是主要做虚拟数字人陪伴的。

显然,除了背后的 LLM 模型,TTS 技术也是关键技术之一。想要有更好的交互交流体验,还可以加更多的多模态技术,支持图片、视频聊天等。
audio2photoreal
其实要说开源,Meta 是真滴猛。

除了耳熟能详的 llama、detectron、segment-anything 等,还有翻几页都翻不完的开源项目。

绝对是“挖坑”小能手,最近 Meta 又挖了一个比较火的新坑 audio2photoreal。
功能简单来说就是,通过一段音频,就能驱动 3D 数字人。
比如先录制一段音频,这是你的声音。

audio2photoreal 就能根据你的声音,驱动那个 3D 数字人。

更多效果直接看视频吧:
不仅仅是口型、头部动作、肢体动作都一起驱动。
现在,大胆想象一下它的场景!
项目地址:
https://github.com/facebookresearch/audio2photoreal
若干年后,互联网上会不会出现一批拥有超强大脑的数字人主播?
好了,今天就聊这么多吧。我是热爱干货分享的 Jack,下期间~

原文始发于微信公众号(Jack Cui):又火一个惊艳的AI项目,开源了!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之家整理,本文链接:https://www.bmabk.com/index.php/post/202062.html