Clonage vocal domestique de l'IA : une stratégie complète allant de la résolution des difficultés à la création de services sans serveur

posté par: XinYe 1 month, 2 weeks ago

En tant que blogueur vidéo court, les formats vidéo peuvent être grossièrement divisés en deux catégories : avec visage et sans visage. Par rapport au caractère aléatoire des vidéos montrant des visages, lors de la création de vidéos de connaissances et de didacticiels, la forme d'enregistrement et de correspondance des matériaux est plus contrôlable. Le processus de production implique généralement d'abord la rédaction de la copie, puis l'enregistrement et enfin la superposition du matériel correspondant dans un logiciel d'édition.

Cependant, les blogueurs rencontrent des difficultés dans la pratique : lorsque la gorge est inconfortable, l'ambiance est mauvaise ou l'environnement est bruyant, l'enregistrement ne peut pas être effectué, ce qui entraîne une interruption de la vidéo et une perte de fans. De là, le blogueur a eu l'idée de laisser l'IA cloner sa propre voix, c'est-à-dire qu'il lui suffit de fournir une rédaction pour générer l'audio correspondant. En fait, le blogueur a déjà réalisé cette idée, et le son de la vidéo est produit de cette manière.

Sélection de modèles pour les services de construction

Pour mettre en œuvre le clonage vocal AI, vous devez d’abord choisir un modèle approprié. Parmi les nombreux modèles TTS, Cozy Voice est celui avec les meilleures critiques et les meilleurs résultats testés par les blogueurs. Dans un premier temps, le blogueur a déployé Cozy Voice sur son ordinateur, mais le processus de génération était extrêmement long. Après tout, l’exécution locale d’applications de grands modèles consomme beaucoup de ressources GPU, et il n’est pas nécessaire de dédier une machine 4090 à cet effet.

Avec l'aide d'une plateforme de location de puissance de calcul

Par hasard, le blogueur est entré en contact avec la plate-forme de location de puissance de calcul GPU Zhiling alors qu'il effectuait des recherches sur l'IA en matière de réglage des décrochages. La plateforme prend en charge le démarrage rapide des instances et le calcul à la demande des ressources informatiques, et peut également fournir des services externes sous forme de Serverless, répondant parfaitement à cette demande.

Créer un service de synthèse vocale

Cette version nécessite deux services sans serveur, dont l'un est un service de synthèse vocale. Étant donné que Cozy Voice doit transmettre le texte de l'échantillon audio lors du clonage du son, afin de simplifier l'opération, le blogueur a choisi Whisper pour accomplir cette tâche. La plateforme Zhiling fournit non seulement des modèles Whisper officiels, mais prend également en charge des modèles personnalisés. Les étudiants intéressés peuvent créer des modèles AIGC exclusifs selon les didacticiels officiels de la plateforme pour répondre aux besoins AIGC personnalisés.

Les étapes de construction spécifiques sont les suivantes : ajoutez un service sans serveur, nommez-le et définissez l'Active Worker de la configuration de la carte graphique sur zéro, c'est-à-dire qu'il n'y a pas de Worker fixe et aucun frais ne sera facturé s'il n'est pas appelé. Les stratégies de mise à l'échelle sont configurées sous forme de files d'attente. Lorsqu’il y a trop de tâches, elles sont mises en file d’attente. Conservez les paramètres par défaut. Choisissez Whisper pour la configuration du modèle car le service renvoie le texte correspondant à la voix de manière synchrone et ne nécessite pas de stockage de montage. Après avoir cliqué sur Ajouter pour démarrer avec succès, un exemple de requête curl apparaîtra. Vous devez la remplacer par votre propre clé et générer une clé permanente en cliquant sur Clé API. Sur la base de l'exemple de projet officiel, les paramètres d'entrée sont transmis au format base64 et les autres paramètres restent inchangés. La réponse est rapide après la demande et la copie est extraite avec précision.

Créez un service de clonage complet

Ensuite, créez le service Cozy Voice, en utilisant également le modèle officiel et en gardant les autres configurations cohérentes avec Whisper. Après avoir attendu le démarrage du service, générez la clé API et remplacez-la dans la commande curl. Une fois les paramètres d'entrée définis, copiez le curl modifié dans la console de commande pour exécution. À ce stade, l’ensemble du service de clonage sonore est terminé. Il convient de mentionner que la construction de services sans serveur de la plate-forme Zhiling est très flexible et que chacun peut transformer les produits AIGC qui l'intéressent en services. Le blogueur recommande la vidéo pédagogique officielle et le référentiel GitHub pour que chacun puisse obtenir plus d'informations.

construction du client

Une fois le service configuré, nous commençons à écrire le client. Cette fois, le blogueur a choisi de créer une application d'une seule page et d'utiliser le curseur pour la compléter. Les étudiants qui ne connaissent pas Cursor peuvent visionner des vidéos connexes précédemment publiées par des blogueurs. L'application est un formulaire qui contient quatre paramètres de configuration : l'identifiant Whisper, la clé API Whisper, l'identifiant vocal Cozy, la clé API vocale Cozy et deux paramètres commerciaux : échantillon audio et copie de clonage. Après avoir cliqué sur Exécuter, JS encodera en base64 l'échantillon audio en interne, appellera le service Whisper pour obtenir une copie de l'échantillon audio, puis appellera Cozy Voice pour cloner et générer le son.

Au cours du test, le blogueur a découvert que Whisper ne pouvait pas obtenir avec précision la copie requise à chaque fois et qu'il y avait certaines fautes de frappe. Par conséquent, un bouton de synthèse vocale distinct a été ajouté à l'interface. Si l'utilisateur clique sur ce bouton, le résultat de la synthèse vocale sera répercuté, permettant à l'utilisateur de modifier un texte incorrect et de garantir l'exactitude du clonage vocal. Si l'utilisateur clique directement sur Voice Clone, l'étape de synthèse vocale sera gérée en interne par le programme et ne sera pas répercutée.

Dans l’ensemble, le projet a bien fonctionné. Le blogueur téléchargera l'intégralité du projet sur GitHub, y compris le code et les mots d'invite. Après l'avoir téléchargé localement, remplacez-le par votre propre clé API et votre identifiant et vous pourrez l'utiliser normalement. Tous les liens et ressources mentionnés dans la vidéo seront placés dans les premiers commentaires pour les étudiants qui en ont besoin pour s'auto-aider.

Actuellement non classé

commentaires

Il n'y a actuellement aucun commentaire

Veuillez vous connecter avant de commenter: Se connecter

Messages récents

Mots clés

Auteurs

Flux

RSS / Atome

Clonage vocal domestique de l'IA : une stratégie complète allant de la résolution des difficultés à la création de services sans serveur

posté par: XinYe 1 month, 2 weeks ago

Sélection de modèles pour les services de construction

Avec l'aide d'une plateforme de location de puissance de calcul

Créer un service de synthèse vocale

Créez un service de clonage complet

construction du client

commentaires

Messages récents

Archive

2025

2024

2023

2022

2021

2020

Catégories

Mots clés

Auteurs

Flux