一种高效的文本到音频AI
169 打赏
一种高效的文本到音频AI 2023-03-16 09:42:49

易百纳社区

用于文本到音频生成(左)和文本引导音频操作(右)的 AudioLDM 设计概述。在训练过程中,潜在扩散模型(LDM)以音频嵌入为条件,并在VAE学习的连续空间中进行训练。采样过程使用文本嵌入作为条件。给定预训练LDM,零镜头音频修复和风格迁移在相反的过程中实现。前向扩散块表示用高斯噪声破坏数据的过程

Surrey大学的研究人员表示,生成式人工智能(AI)系统将激发音乐行业及其他行业的创造力,他们邀请公众测试他们的新文本转音频模型。

AudioLDM是来自Surrey的一个新的基于人工智能的系统,它允许用户提交文本提示,然后用于生成相应的音频片段。与当前的人工智能系统相比,该系统可以在不影响音质或用户操作剪辑能力的情况下,使用更少的计算能力来处理提示和传递剪辑。

这样的系统可以被声音设计师用于各种应用,如电影制作、数字艺术、虚拟现实、元世界,以及视障人士的数字助手。

Surrey大学的项目负责人Haohe Liu表示:“生成式人工智能有潜力改变每个领域,包括音乐和声音创作。”

“通过AudioLDM,我们表明任何人都可以在几秒钟内创建高质量和独特的样本,只需很少的计算能力。虽然人们对这项技术有一些合理的担忧,但毫无疑问,人工智能将为这些创意行业的许多人打开大门,并激发新想法的爆发。”

Surrey的开源模型是用一种叫做对比语言音频预训练(CLAP)的方法以半监督的方式构建的。使用CLAP方法,AudioLDM可以在大量不同的音频数据上进行训练,无需文本标记,显著提高模型容量。

Surrey大学信号处理和机器学习教授Wenwu Wang说:“AudioLDM的特别之处在于,它不仅可以根据文本提示创建声音片段,而且可以根据相同的文本创建新的声音,而不需要重新训练。”

“这节省了时间和资源,因为它不需要额外的培训。随着生成式人工智能成为我们日常生活的一部分,我们开始思考运行这些技术的计算机所需的能源是很重要的。AudioLDM是朝着正确方向迈出的一步。”

声明:本文内容由易百纳平台入驻作者撰写,文章观点仅代表作者本人,不代表易百纳立场。如有内容侵权或者其他问题,请联系本站进行删除。
评论
0个
时间排序
内容存在敏感词
    0 条记录 第 0 /
    相关专栏
    打赏作者
    易百纳技术社区
    您的支持将鼓励我继续创作!
    打赏金额:
    ¥1 易百纳技术社区
    ¥5 易百纳技术社区
    ¥10 易百纳技术社区
    ¥50 易百纳技术社区
    ¥100 易百纳技术社区
    支付方式:
    微信支付
    支付宝支付
    易百纳技术社区 微信支付
    易百纳技术社区
    打赏成功!

    感谢您的打赏,如若您也想被打赏,可前往 发表专栏 哦~

    举报反馈

    举报类型

    • 内容涉黄/赌/毒
    • 内容侵权/抄袭
    • 政治相关
    • 涉嫌广告
    • 侮辱谩骂
    • 其他

    详细说明

    审核成功

    发布时间设置
    发布时间:
    是否关联周任务-专栏模块

    审核失败

    失败原因
    备注
    Loading...
    易百纳技术社区
    确定要删除此文章、专栏、评论吗?
    确定
    取消
    易百纳技术社区
    易百纳技术社区
    在专栏模块发布专栏,可获得其他E友的打赏
    易百纳技术社区
    回答悬赏问答,被题主采纳后即可获得悬赏金
    易百纳技术社区
    在上传资料时,有价值的资料可设置为付费资源
    易百纳技术社区
    达到一定金额,收益即可提现~
    收益也可用来充值ebc,下载资料、兑换礼品更容易
    易百纳技术社区
    活动规则
    • 1.周任务为周期性任务,每周周一00:00刷新,上周完成的任务不会累计到本周,本周需要从头开始任务,当前任务完成后才可以完成下一个任务
    • 2.发布的专栏与资料需要与平台的板块有相关性,禁止注水,专栏/资料任务以审核通过的篇数为准,专栏需为原创文章且首次在社区发布
    • 3.任务完成后,现金奖励直接打款到微信账户;EBC/收益将自动发放到个人账户,可前往“我的钱包”查看;其他奖励请联系客服兑换
    易百纳技术社区
    升级提醒
    升级

    恭喜您的社区称号由 升级为 “社区游民”

    同时为了感谢您对社区的支持,我们将送出xxx礼品一份, 记得领取哦~

    升级提醒
    易百纳技术社区