首页 > AI > AI资讯> 正文

亚马逊训练的980M参数LLM具有“涌现”能力

zhangxinxin 责任编辑:wangkeyue 发布于:2024-02-23 12:22

亚马逊的研究人员训练了一种新的大型语言模型(LLM),用于文本到语音的转换,他们声称该模型具有“涌现”能力。

这个被称为BASE TTS的9.8亿个参数模型是迄今为止创建的最大的文本到语音模型。研究人员在长达10万小时的公共领域语音数据上训练了各种规模的模型,以观察它们是否会在自然语言处理模型超过一定规模后观察到同样的性能飞跃。

他们发现,他们的中等大小的4亿个参数模型——经过1万小时的音频训练——在复杂的测试句子中显示出明显的多功能性和稳健性提高。

测试句子包含复杂的词汇、句法和副语言特征,如复合名词、情感、外来词和标点符号,这些通常会使文本到语音系统出错。虽然BASE TTS不能完美地处理它们,但它在重音、语调和发音方面的错误比现有模型少得多。

研究人员解释说:“这些句子是为了包含具有挑战性的任务而设计的,BASE TTS没有受过明确的训练。”

该模型最大的9.8亿个参数版本——经过10万小时的音频训练——并没有显示出超过4亿个参数版本的进一步能力。

虽然这是一个实验过程,但BASE TTS的创建表明,随着模型的扩展,这些模型可以达到新的多功能性阈值——这是对话式人工智能的一个令人鼓舞的迹象。研究人员计划进一步开展工作,以确定紧急能力的最佳模型大小。

该模型还被设计为轻量级和可流化,分别包装情感和韵律数据。这可以让自然的语音通过低带宽连接传输。

zhangxinxin

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部