谷歌新技术可用AI模型为无声视频配音
第一财经 2024-06-20 10:37

谷歌DeepMind 近日公布了一项利用 AI 为无声视频生成背景音乐的“video-to-audio”技术。

当前 DeepMind 这款 AI 模型依然存在局限性,需要开发者使用提示词为模型预先“介绍”视频可能的声音,暂时不能直接根据视频画面添加具体音效。

据悉,该模型首先会将用户输入的视频进行拆解,此后结合用户的用户文字提示,利用扩散模型反复运算,最终以生成与视频画面协调的背景声音,例如输入一条“在黑暗中行走”的无声视频,再添加“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等文字提示,相关模型就能生成恐怖风格的背景音效。

DeepMind 同时表示,该“video-to-audio”模型可以为任何视频生成无限数量的音轨,还能够通过提示词内容判断生成的音频“正向性”或“反向性”,从而令生成的声音更贴近某些特定场景。

编辑/范辉

相关阅读
学而思高考公益服务覆盖考生全方位需求
北京青年报客户端 2025-06-10
引入聊天机器人 Gemini 2.5 Pro加持 谷歌重塑搜索AI能力
澎湃新闻 2025-05-21
生数科技朱军:视频模型更期待“ChatGPT时刻”
第一财经 2025-03-30
“APUS 智草”大模型为中医药行业注入活力
北京青年报客户端 2025-03-10
阶跃星辰联合吉利首次开源视频生成模型和语音模型
北京青年报客户端 2025-02-18
群雄争霸多模态大模型
21世纪经济报道 2024-12-19
谷歌推出新一代视频生成模型Veo 2
新华社 2024-12-18
谷歌新动作!大幅更新生成式AI 推出视频模型VEO 2和最新版Imagen3
每日经济新闻 2024-12-17
最新评论