设为首页收藏本站
网站公告 | 这是第一条公告
     

 找回密码
 立即注册
缓存时间00 现在时间00 缓存数据 对自己狠一点,逼自己努力,再过几年你将会感谢今天发狠的自己、恨透今天懒惰自卑的自己。晚安!

对自己狠一点,逼自己努力,再过几年你将会感谢今天发狠的自己、恨透今天懒惰自卑的自己。晚安!

查看: 1275|回复: 4

语音领域的 GPT 时刻:Meta 发布「突破性」生成式语音系统,一个通用模型解决多项任

[复制链接]

  离线 

TA的专栏

等级头衔

等級:晓枫资讯-列兵

在线时间
0 小时

积分成就
威望
0
贡献
0
主题
1
精华
0
金钱
59
积分
25
注册时间
2022-12-23
最后登录
2023-6-18

发表于 2023-6-17 14:51:04 | 显示全部楼层 |阅读模式
机器之心报道
编辑:Panda、小舟
继开源 LLaMA 之后,Meta 在生成式 AI 方向又公布一项重大研究。
我们知道,GPT、DALL-E 等大规模生成模型彻底改变了自然语言处理和计算机视觉研究。这些模型可以生成高保真文本或图像,而且它们有个重要特点就是「通才」,可以解决没训过的任务。相比之下,语音生成模型在规模和任务泛化方面一直没有「突破性」成果。
今日,Meta 介绍了一种「突破性」的生成式语音系统,它可以合成六种语言的语音,执行噪声消除、内容编辑、转换音频风格等。Meta 称之为最通用的语音生成 AI。

Hy2MGKyspCP9WknW.jpg



相关研究论文也已公布。接下来我们具体看下这下项研究。

MVfBOQZMvrmqa3QC.jpg



论文:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/
Meta 表示,Voicebox 是第一个没有经过专门针对语音生成的训练,却可以泛化到语音生成任务的模型。
与图像和文本的生成一样,Voicebox 可以创建多种样式的语音输出,包括从头开始创建输出和修改给定的样本。Voicebox 可以合成六种语言的语音,以及执行噪声去除、内容编辑、风格转换和多样化样本生成。
在 Voicebox 出现之前,生成语音的 AI 需要使用精心准备的训练数据对每项任务进行特定训练。而 Voicebox 仅需要从原始音频和随附的转录文本中学习,并且 Voicebox 可以修改给定样本的任何部分。
Voicebox 基于一种称为流匹配(Flow Matching)的方法,该方法已被证明可以改进扩散模型。
在生成效果方面,Voicebox 的可懂度(词错率:1.9% VS 5.9%)和音频相似度(0.681 VS 0.580)优于当前英文语音生成 SOTA 模型 VALL-E,并且速度快了 20 倍。在跨语言风格迁移任务上,Voicebox 优于 YourTTS,将平均词错率从 10.9% 降低到 5.2%,将音频相似度从 0.335 提高到 0.481。

nl6bv66Q916Wn7ID.jpg



Voicebox 在词错率指标上的表现优于 Vall-E 和 YourTTS,实现新的 SOTA。

MO9BayBvrNZQ05ay.jpg



在英语和多语言基准的音频风格相似度指标上,Voicebox 都取得了新的最佳结果。
语音生成新方法
现有语音合成器的一大主要局限是它们的训练数据都是针对目标任务准备的。这些输入基本都要求是单调的干净数据,也因此难以获取,数据量很有限,并且用这些数据训练出的模型也只能输出单调的声音。
Voicebox 基于流匹配(Flow Matching)模型,这是 Meta 在非自回归生成模型方面的最新进展,其可以学习到文本和语音之间高度非确定性的映射关系。非确定性映射很有用,因为这能让 Voicebox 学习不同的语音数据而无需仔细标注这些变体。也就是说,Voicebox 可以在更多样化的数据上训练,因此可使用数据的范围也大得多。
Meta 训练 Voicebox 时使用的数据来自英语、法语、德语、西班牙语、波兰语、葡萄牙语这六种语言,包含 50000 小时的录音和转录文本以及公共领域的有声书。Voicebox 的训练目标是根据周围语音和某片段的转录文本来预测该片段的语音。学习过基于上下文填充语音之后,该模型就能让其用于各种语音生成任务,包括生成音频录音中的缺失片段(无需重建整个输入)。
Voicebox 的这种多功能性使其可以很好地执行多种不同任务,包括:
基于语境的文本转语音合成:仅需使用长度 2 秒的输入音频样本,Voicebox 就能匹配样本的音频风格并将其用于文本转语音生成。这一能力具有重要的应用前景,比如可以为难以说话的人带来语音表达能力,还能让用户为 NPC 角色和虚拟助手定制声音。
跨语言风格迁移:给定一段语音样本和对应的文本片段,不管是英语、法语、德语,还是西班牙语、波兰语、葡萄牙语,Voicebox 都能以该语言读出该文本。这是一种激动人心的能力,因为这能帮助人们自然而真实地交流 —— 即便他们不说同一种语言。
语音降噪和编辑:Voicebox 的上下文学习能力让它可以在音频录音中生成无缝衔接的片段。要是音频中出现了被噪声污染的片段,它也可以为其重新合成,甚至无需重新录音就能替换原音频中说错的词句。用户可以辨别原始音频中被噪声(比如犬吠声)污染的片段,然后将其裁剪下来,再指示 Voicebox 重新生成该片段。这项能力有望让音频编辑变得非常简单,就像现在流行的图像编辑工具调整图像一样。
多样化的语音采样:Voicebox 学习了多样化的野外数据,所以可以生成就像在现实世界中说话的声音,并且支持上述六种语言。未来,这种能力可用于合成数据,然后用于训练语音助理模型等。Meta 的实验结果表明,基于 Voicebox 合成语音训练的语音识别模型的表现几乎不逊于使用真实语音训练的模型 —— 错误率仅高了 1%;而要是使用之前的文本转语音模型合成的数据训练,错误率会提升 45%-70%。
Meta 表示,Voicebox 作为首个能成功执行任务泛化的高效的多功能模型,将开创一个语音生成式 AI 的新时代。
但 Meta 也没有否认这项技术可能被误用乃至被恶意使用。为了应对这种可能性,降低潜在的风险,Meta 还构建了一种分类器,其宣称可有效分辨真实语音和 VoiceBox 生成的音频。
Voicebox 是生成式 AI 研究的重要一步。具备任务泛化能力的生成式 AI 模型正在催生出涉及文本、图像和视频生成的实际应用,这将让生成式 AI 更上一层楼。
参考内容:
https://www.engadget.com/metas-open-source-speech-ai-recognizes-over-4000-spoken-languages-161508200.html
https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/
THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
晓枫资讯-科技资讯社区-免责声明
免责声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。
      1、注册用户在本社区发表、转载的任何作品仅代表其个人观点,不代表本社区认同其观点。
      2、管理员及版主有权在不事先通知或不经作者准许的情况下删除其在本社区所发表的文章。
      3、本社区的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,举报反馈:点击这里给我发消息进行删除处理。
      4、本社区一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
      5、以上声明内容的最终解释权归《晓枫资讯-科技资讯社区》所有。
http://bbs.yzwlo.com 晓枫资讯--游戏IT新闻资讯~~~

  离线 

TA的专栏

等级头衔

等級:晓枫资讯-列兵

在线时间
0 小时

积分成就
威望
0
贡献
0
主题
0
精华
0
金钱
15
积分
10
注册时间
2022-12-29
最后登录
2022-12-29

发表于 2023-6-20 04:49:58 | 显示全部楼层
看看,学习学习~~~~
http://bbs.yzwlo.com 晓枫资讯--游戏IT新闻资讯~~~

  离线 

TA的专栏

  • 打卡等级:即来则安
  • 打卡总天数:26
  • 打卡月天数:0
  • 打卡总奖励:306
  • 最近打卡:2025-10-31 06:22:41
等级头衔

等級:晓枫资讯-列兵

在线时间
0 小时

积分成就
威望
0
贡献
0
主题
0
精华
0
金钱
356
积分
56
注册时间
2023-3-30
最后登录
2025-10-31

发表于 2024-8-20 12:11:16 | 显示全部楼层
感谢楼主,顶。
http://bbs.yzwlo.com 晓枫资讯--游戏IT新闻资讯~~~

  离线 

TA的专栏

等级头衔

等級:晓枫资讯-列兵

在线时间
0 小时

积分成就
威望
0
贡献
0
主题
0
精华
0
金钱
11
积分
2
注册时间
2024-3-15
最后登录
2024-3-15

发表于 2025-2-27 16:14:42 | 显示全部楼层
顶顶更健康!!!
http://bbs.yzwlo.com 晓枫资讯--游戏IT新闻资讯~~~

  离线 

TA的专栏

等级头衔

等級:晓枫资讯-列兵

在线时间
0 小时

积分成就
威望
0
贡献
0
主题
0
精华
0
金钱
11
积分
2
注册时间
2024-11-24
最后登录
2024-11-24

发表于 昨天 18:49 | 显示全部楼层
感谢楼主分享。
http://bbs.yzwlo.com 晓枫资讯--游戏IT新闻资讯~~~
严禁发布广告,淫秽、色情、赌博、暴力、凶杀、恐怖、间谍及其他违反国家法律法规的内容。!晓枫资讯-社区
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

1楼
2楼
3楼
4楼
5楼

手机版|晓枫资讯--科技资讯社区 本站已运行

CopyRight © 2022-2025 晓枫资讯--科技资讯社区 ( BBS.yzwlo.com ) . All Rights Reserved .

晓枫资讯--科技资讯社区

本站内容由用户自主分享和转载自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

如有侵权、违反国家法律政策行为,请联系我们,我们会第一时间及时清除和处理! 举报反馈邮箱:点击这里给我发消息

Powered by Discuz! X3.5

快速回复 返回顶部 返回列表