国产AI语音克隆:从困境突破到Serverless服务搭建全攻略

(0 comments)

作为短视频博主,视频格式大致可以分为两类:露脸和不露脸。相比露脸视频的随意性,在制作知识、教程视频时,记录和匹配素材的形式更加可控。制作过程通常是先写文案,然后录制,最后在编辑软件中叠加匹配的素材。

但博主在实践中却遇到困难:当喉咙不舒服、心情不好、或者环境吵闹时,录制就无法进行,进而导致视频中断、粉丝流失。由此,博主想到了让AI克隆自己的声音的想法,即他只需要提供文案就可以生成相应的音频。其实博主已经实现了这个想法,视频中的声音就是这样产生的。

建筑服务的型号选择

要实现AI语音克隆,首先需要选择合适的型号。在众多TTS模型中,Cozy Voice是评价最好、经博主测试效果最好的一种。最初博主在自己的电脑上部署了Cozy Voice,但生成过程极其耗时。毕竟,在本地运行大型模型应用程序会消耗大量 GPU 资源,没有必要为此专门设置一台 4090 计算机。

借助算力租赁平台

一次偶然的机会,博主在研究摆摊AI的时候接触到了智灵GPU算力租赁平台。该平台支持实例的快速启动和计算资源的按需计算,还可以以Serverless的形式对外提供服务,完美满足了这一需求。

构建语音转文本服务

这种构建需要两个Serverless服务,其中之一是语音转文本服务。由于Cozy Voice在克隆声音时需要传输样本音频的文本,为了简化操作,博主选择了Whisper来完成这项任务。智灵平台不仅提供官方Whisper模板,还支持定制模板。有兴趣的同学可以按照平台官方教程创建专属AIGC模板,满足定制化AIGC需求。

具体构建步骤如下:添加一个Serverless服务,命名,并将显卡配置的Active Worker设置为零,即没有固定的Worker,不调用时不会产生任何费用。扩展策略配置为队列。当任务过多时,就会排队等待。保持默认设置。模板配置选择Whisper,因为该服务同步返回语音对应的文本,不需要挂载存储。点击添加启动成功后,会出现一个curl请求示例。您需要将其替换为您自己的密钥,并通过单击 API 密钥生成永久密钥。基于官方示例工程,输入参数以base64形式传输音频,其他参数不变。请求后响应快,文案提取准确。

构建完善的克隆服务

接下来构建Cozy Voice服务,同样使用官方模板,其他配置与Whisper保持一致。等待服务启动后,生成API密钥并将其替换到curl命令中。输入参数设置完毕后,将编辑好的curl复制到命令控制台执行。至此,整个声音克隆服务就完成了。值得一提的是,智灵平台的Serverless服务构建非常灵活,每个人都可以将自己感兴趣的AIGC产品变成服务。博主推荐官方教学视频和GitHub仓库供大家获取更多信息。

客户端构建

服务搭建好之后,我们就开始编写客户端。这次博主选择创建一个单页面应用程序,并使用Cursor来完成。对Cursor不熟悉的同学可以查看博主之前发布的相关视频。该应用程序是一个表单,包含四个配置参数:Whisper id、Whisper api key、Cozy voice id、Cozy voice api key,以及两个业务参数:样本音频和克隆副本。点击执行后,JS内部会对样本音频进行base64编码,调用Whisper服务获取样本音频副本,然后调用Cozy Voice克隆生成声音。

在测试过程中,博主发现Whisper每次都无法准确获取所需的副本,并且存在一定的错别字。因此,界面中添加了一个单独的语音转文本按钮。如果用户点击该按钮,就会回显语音转文本的结果,方便用户修改不正确的文本,保证语音克隆的准确性。如果用户直接点击语音克隆,语音转文本步骤将由程序内部处理,不会回显。

总体而言,该项目运作良好。博主会将整个项目上传到GitHub,包括代码和提示词。大家下载到本地后,替换成自己的API key和id就可以正常使用了。视频中提到的所有链接和资源都会放在置顶评论中,供有需要的同学自助使用。

目前未评级

评论


目前没有任何评论

发表评论前请先登录: 登录

最近的帖子

档案

2025
2024
2023
2022
2021
2020

类别

标签

作者

饲料

RSS / 原子