Como um pequeno videoblogger, os formatos de vídeo podem ser divididos em duas categorias: com exibição de rosto e sem rosto. Em comparação com a aleatoriedade dos vídeos de exibição de rostos, ao fazer vídeos de conhecimento e tutoriais, a forma de gravação e correspondência de materiais é mais controlável. O processo de produção geralmente envolve primeiro escrever a cópia, depois gravar e, finalmente, sobrepor o material correspondente no software de edição.
Porém, os blogueiros encontram dificuldades na prática: quando a garganta está desconfortável, o clima está ruim ou o ambiente está barulhento, a gravação não pode ser realizada, o que por sua vez leva à interrupção do vídeo e à perda de fãs. A partir disso, o blogueiro teve a ideia de deixar a IA clonar a própria voz, ou seja, basta fornecer copywriting para gerar o áudio correspondente. Na verdade, o blogueiro já percebeu essa ideia, e o som do vídeo é produzido dessa forma.
Para implementar a clonagem de voz AI, primeiro você precisa escolher um modelo adequado. Entre os diversos modelos de TTS, o Cosy Voice é o que tem as melhores críticas e os melhores resultados testados pelos blogueiros. Inicialmente, o blogueiro implantou o Cosy Voice em seu computador, mas o processo de geração foi extremamente demorado. Afinal, a execução local de aplicativos de modelos grandes consome muitos recursos de GPU e não há necessidade de dedicar uma máquina 4090 para essa finalidade.
Por acaso, o blogueiro entrou em contato com a plataforma de aluguel de energia de computação Zhiling GPU enquanto pesquisava a IA de configuração de travamento. A plataforma suporta a inicialização rápida de instâncias e a computação sob demanda de recursos computacionais, podendo também fornecer serviços externos na forma de Serverless, atendendo perfeitamente essa demanda.
Esta compilação requer dois serviços sem servidor, um dos quais é um serviço de fala para texto. Como o Cosy Voice precisa transmitir o texto da amostra de áudio ao clonar o som, para simplificar a operação, o blogueiro escolheu o Whisper para realizar esta tarefa. A plataforma Zhiling não fornece apenas modelos oficiais do Whisper, mas também oferece suporte a modelos personalizados. Os alunos interessados podem criar modelos AIGC exclusivos de acordo com os tutoriais oficiais da plataforma para atender às necessidades personalizadas do AIGC.
As etapas específicas de construção são as seguintes: adicionar um serviço Serverless, nomeá-lo e definir o Active Worker da configuração da placa gráfica como zero, ou seja, não há Worker fixo e nenhuma taxa será cobrada quando não for chamado. As políticas de escalabilidade são configuradas como filas. Quando há muitas tarefas, elas ficam na fila. Mantenha as configurações padrão. Escolha Whisper para a configuração do modelo porque o serviço retorna o texto correspondente à voz de forma síncrona e não requer montagem de armazenamento. Depois de clicar em Adicionar para iniciar com sucesso, um exemplo de solicitação curl aparecerá. Você precisa substituí-la por sua própria chave e gerar uma chave permanente clicando em Chave API. Com base no projeto de amostra oficial, os parâmetros de entrada são transmitidos no formato base64 e os demais parâmetros permanecem inalterados. A resposta é rápida após a solicitação e a cópia é extraída com precisão.
Em seguida, construa o serviço Cosy Voice, também usando o template oficial, e mantendo outras configurações consistentes com o Whisper. Após aguardar o início do serviço, gere a chave API e substitua-a no comando curl. Depois que os parâmetros de entrada forem definidos, copie o curl editado para o console de comando para execução. Neste ponto, todo o serviço de clonagem de som está concluído. Vale ressaltar que a construção de serviços sem servidor da plataforma Zhiling é muito flexível e todos podem transformar os produtos AIGC de seu interesse em serviços. O blogueiro recomenda o vídeo de ensino oficial e o repositório GitHub para que todos possam obter mais informações.
Após a configuração do serviço, começamos a escrever o cliente. Dessa vez o blogueiro optou por criar uma aplicação de página única e usar o Cursor para completá-la. Os alunos que não estão familiarizados com o Cursor podem ver vídeos relacionados postados anteriormente por blogueiros. O aplicativo é um formulário que contém quatro parâmetros de configuração: Whisper id, Whisper api key, Cosy voice id, Cosy voice api key e dois parâmetros de negócios: amostra de áudio e cópia clonada. Depois de clicar em Executar, JS codificará internamente o áudio de amostra em base64, chamará o serviço Whisper para obter uma cópia do áudio de amostra e, em seguida, chamará Cosy Voice para clonar e gerar o som.
Durante o teste, o blogueiro descobriu que o Whisper não conseguia obter com precisão a cópia necessária todas as vezes e havia alguns erros de digitação. Portanto, um botão separado de fala para texto foi adicionado à interface. Se o usuário clicar neste botão, o resultado da conversão de voz em texto será repetido, permitindo ao usuário modificar o texto incorreto e garantir a precisão da clonagem de voz. Se o usuário clicar diretamente em Clone de Voz, a etapa de conversão de fala em texto será tratada internamente pelo programa e não será reproduzida.
No geral, o projeto funcionou bem. O blogueiro fará upload de todo o projeto para o GitHub, incluindo código e palavras de prompt. Depois de baixá-lo localmente, substitua-o por sua própria chave de API e ID e você poderá usá-lo normalmente. Todos os links e recursos mencionados no vídeo serão colocados nos comentários principais para os alunos que precisam usar para autoajuda.
Compartilhar no Twitter Compartilhar no Facebook
Comentários
Atualmente não há comentários