OpenVoice

OpenVoice

分类:
智能工具
更新日期:
2025-02-03 22:21
介绍

OpenVoice,一种多功能的即时语音克隆方法,只需要参考说话者的一小段音频剪辑即可复制他们的声音并生成多种语言的语音。OpenVoice 支持对语音风格进行精细控制,包括情感、口音、节奏、停顿和语调,以及复制参考扬声器的音调颜色。OpenVoice 还实现了零样本跨语言语音克隆,适用于未包含在大规模说话人训练集中的语言。OpenVoice 的计算效率也很高,其成本比性能较差的商用 API 低数十倍。

OpenVoice论文:https://arxiv.org/pdf/2312.01479.pdf

OpenVoice项目:https://github.com/myshell-ai/OpenVoice

OpenVoice

OpenVoice特征:

准确的色调颜色克隆。OpenVoice可以准确克隆参考音色,生成多种语言和口音的语音。

灵活的语音风格控制。OpenVoice 支持对语音风格(如情感和口音)以及其他风格参数(包括节奏、停顿和语调)进行精细控制。

零样本跨语言语音克隆。生成的语音的语言和参考语音的语言都不需要在大规模说话人多语言训练数据集中呈现。

OpenVoice用法:

1.灵活的语音风格控制。请参阅 demo_part1.ipynb,了解 OpenVoice 如何对克隆的语音实现灵活的样式控制的示例用法。

2.跨语言语音克隆。请参阅 demo_part2.ipynb,了解 MSML 训练集中可见或未可见的语言示例。

3. 高级用法。基本扬声器型号可以替换为用户喜欢的任何型号(任何语言和风格)。请使用演示中演示的功能来提取新基座扬声器的音色嵌入。se_extractor.get_se

4. 生成自然语音的技巧。有许多单说话人或多说话人的 TTS 方法可以生成自然语音,并且很容易获得。只需将基本扬声器型号替换为您喜欢的型号,您就可以将语音自然度提升到您想要的水平。

语言

我们只支持此版本模型重量的英文和中文。OpenVoice 可以适应任何其他语言,只要提供基础扬声器即可。

自 2023 年 5 月以来,OpenVoice 一直在为 myshell.ai 的即时语音克隆功能提供支持。截止到2023年11月,语音克隆模式已被全球用户使用数千万次,见证了平台用户爆发式增长。

最新AI教程资讯
更多

金山发布WPS 365办公套件,打造ToB企业全场景一站式AI办公工作流新模式

4月9日,金山办公生产力大会在京举行,现场发布了面向组织和企业的办公新质生产力平台WPS 365 其包含升级的WPS Office、最新发布的WPS AI企业版和WPS协作。

马斯克预测:AI人工智能技术最快将在两年内超越地表最聪明的人类智商

马斯克预测:AI将在两年内超越地表最聪明的人

谷歌发布Gemini 1.5 Pro公共预览版丨苹果iOS 18或将引入Safari网页助手丨华为笔记本将首次搭载盘古大模型

【AI奇点网2024年4月11日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。

谷歌Gemini Pro 1.5「百万Tokens长文本」免费全量开放!一小时电影“投喂”进去,大模型直出神级影评

谷歌最牛的大语言模型Gemini 1 5 Pro,即日起对外开启公测。划重点!本次更新最令人期待的是,Gemini 1 5 Pro API首次增加了音频信息的理解功能。

苹果下一代M4芯片聚焦AI算力丨AI音乐生成模型「天工SkyMusic」内测丨李彦宏看好“闭源模型”持续领先

【AI奇点网2024年4月12日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。

百度CEO李彦宏喊话:AI大模型开源意义不大,围绕文心一言可以打造最好的应用生态体验

4月11日下午,百度创始人、董事长、CEO李彦宏发布了一系列关于AI大模型与创业的观点,主要谈及中国AI大模型开源与闭源的路线选择以及AI创业。

同类最新
同类热门

网站地图