国产AI语音克隆：从困境突破到Serverless服务搭建全攻略

发表者: XinYe 1 月，2 周前

作为短视频博主，视频格式大致可以分为两类：露脸和不露脸。相比露脸视频的随意性，在制作知识、教程视频时，记录和匹配素材的形式更加可控。制作过程通常是先写文案，然后录制，最后在编辑软件中叠加匹配的素材。

但博主在实践中却遇到困难：当喉咙不舒服、心情不好、或者环境吵闹时，录制就无法进行，进而导致视频中断、粉丝流失。由此，博主想到了让AI克隆自己的声音的想法，即他只需要提供文案就可以生成相应的音频。其实博主已经实现了这个想法，视频中的声音就是这样产生的。

建筑服务的型号选择

要实现AI语音克隆，首先需要选择合适的型号。在众多TTS模型中，Cozy Voice是评价最好、经博主测试效果最好的一种。最初博主在自己的电脑上部署了Cozy Voice，但生成过程极其耗时。毕竟，在本地运行大型模型应用程序会消耗大量 GPU 资源，没有必要为此专门设置一台 4090 计算机。

借助算力租赁平台

一次偶然的机会，博主在研究摆摊AI的时候接触到了智灵GPU算力租赁平台。该平台支持实例的快速启动和计算资源的按需计算，还可以以Serverless的形式对外提供服务，完美满足了这一需求。

构建语音转文本服务

这种构建需要两个Serverless服务，其中之一是语音转文本服务。由于Cozy Voice在克隆声音时需要传输样本音频的文本，为了简化操作，博主选择了Whisper来完成这项任务。智灵平台不仅提供官方Whisper模板，还支持定制模板。有兴趣的同学可以按照平台官方教程创建专属AIGC模板，满足定制化AIGC需求。

具体构建步骤如下：添加一个Serverless服务，命名，并将显卡配置的Active Worker设置为零，即没有固定的Worker，不调用时不会产生任何费用。扩展策略配置为队列。当任务过多时，就会排队等待。保持默认设置。模板配置选择Whisper，因为该服务同步返回语音对应的文本，不需要挂载存储。点击添加启动成功后，会出现一个curl请求示例。您需要将其替换为您自己的密钥，并通过单击 API 密钥生成永久密钥。基于官方示例工程，输入参数以base64形式传输音频，其他参数不变。请求后响应快，文案提取准确。

构建完善的克隆服务

接下来构建Cozy Voice服务，同样使用官方模板，其他配置与Whisper保持一致。等待服务启动后，生成API密钥并将其替换到curl命令中。输入参数设置完毕后，将编辑好的curl复制到命令控制台执行。至此，整个声音克隆服务就完成了。值得一提的是，智灵平台的Serverless服务构建非常灵活，每个人都可以将自己感兴趣的AIGC产品变成服务。博主推荐官方教学视频和GitHub仓库供大家获取更多信息。

客户端构建

服务搭建好之后，我们就开始编写客户端。这次博主选择创建一个单页面应用程序，并使用Cursor来完成。对Cursor不熟悉的同学可以查看博主之前发布的相关视频。该应用程序是一个表单，包含四个配置参数：Whisper id、Whisper api key、Cozy voice id、Cozy voice api key，以及两个业务参数：样本音频和克隆副本。点击执行后，JS内部会对样本音频进行base64编码，调用Whisper服务获取样本音频副本，然后调用Cozy Voice克隆生成声音。

在测试过程中，博主发现Whisper每次都无法准确获取所需的副本，并且存在一定的错别字。因此，界面中添加了一个单独的语音转文本按钮。如果用户点击该按钮，就会回显语音转文本的结果，方便用户修改不正确的文本，保证语音克隆的准确性。如果用户直接点击语音克隆，语音转文本步骤将由程序内部处理，不会回显。

总体而言，该项目运作良好。博主会将整个项目上传到GitHub，包括代码和提示词。大家下载到本地后，替换成自己的API key和id就可以正常使用了。视频中提到的所有链接和资源都会放在置顶评论中，供有需要的同学自助使用。

目前未评级

目前没有任何评论

发表评论前请先登录: 登录

档案

2025

一月 (90)

2024

十二月 (12)
十一月 (58)
十月 (51)
九月 (31)
八月 (3)
七月 (30)
六月 (26)
五月 (46)
四月 (45)
三月 (85)
二月 (54)
一月 (43)

类别

作者

饲料

RSS / 原子

国产AI语音克隆：从困境突破到Serverless服务搭建全攻略

发表者: XinYe 1 月，2 周前

建筑服务的型号选择

借助算力租赁平台

构建语音转文本服务

构建完善的克隆服务

客户端构建

评论

最近的帖子

档案

2025

2024

2023

2022

2021

2020

类别

标签

作者

饲料

国产AI语音克隆：从困境突破到Serverless服务搭建全攻略

发表者: XinYe 1 月，2 周 前

建筑服务的型号选择

借助算力租赁平台

构建语音转文本服务

构建完善的克隆服务

客户端构建

评论

最近的帖子

档案

2025

2024

2023

2022

2021

2020

类别

标签

作者

饲料

发表者: XinYe 1 月，2 周前