Como blogger de videos cortos, los formatos de video se pueden dividir aproximadamente en dos categorías: con rostro y sin rostro. En comparación con la aleatoriedad de los videos que muestran caras, al crear videos tutoriales y de conocimiento, la forma de grabar y combinar materiales es más controlable. El proceso de producción generalmente implica escribir primero la copia, luego grabarla y finalmente superponer material coincidente en un software de edición.
Sin embargo, los bloggers encuentran dificultades en la práctica: cuando la garganta está incómoda, el estado de ánimo es malo o el ambiente es ruidoso, no se puede realizar la grabación, lo que a su vez provoca la interrupción del vídeo y la pérdida de fans. A partir de esto, al blogger se le ocurrió la idea de dejar que la IA clonara su propia voz, es decir, solo necesita proporcionar redacción para generar el audio correspondiente. De hecho, el blogger ya se dio cuenta de esta idea y el sonido del video se produce de esta manera.
Para implementar la clonación de voz con IA, primero debe elegir un modelo adecuado. Entre los muchos modelos de TTS, Cozy Voice es el que tiene mejores críticas y mejores resultados probados por los bloggers. Inicialmente, el blogger implementó Cozy Voice en su computadora, pero el proceso de generación llevó mucho tiempo. Después de todo, ejecutar aplicaciones de modelos grandes localmente consume muchos recursos de GPU y no es necesario dedicar una máquina 4090 para este propósito.
Por casualidad, el blogger entró en contacto con la plataforma de alquiler de energía informática Zhiling GPU mientras investigaba la configuración de bloqueo de IA. La plataforma admite el inicio rápido de instancias y la computación bajo demanda de recursos informáticos, y también puede proporcionar servicios externos en forma de Serverless, satisfaciendo perfectamente esta demanda.
Esta compilación requiere dos servicios sin servidor, uno de los cuales es un servicio de voz a texto. Dado que Cozy Voice necesita transmitir el texto del audio de muestra al clonar el sonido, para simplificar la operación, el blogger eligió Whisper para completar esta tarea. La plataforma Zhiling no solo proporciona plantillas oficiales de Whisper, sino que también admite plantillas personalizadas. Los estudiantes interesados pueden crear plantillas AIGC exclusivas de acuerdo con los tutoriales oficiales de la plataforma para satisfacer las necesidades personalizadas de AIGC.
Los pasos de construcción específicos son los siguientes: agregue un servicio sin servidor, asígnele un nombre y establezca el trabajador activo de la configuración de la tarjeta gráfica en cero, es decir, no hay ningún trabajador fijo y no se incurrirá en tarifas cuando no se llame. Las políticas de escalado se configuran como colas. Cuando hay demasiadas tareas, se ponen en cola. Mantenga la configuración predeterminada. Elija Whisper para la configuración de la plantilla porque el servicio devuelve el texto correspondiente a la voz de forma sincrónica y no requiere almacenamiento de montaje. Después de hacer clic en Agregar para comenzar correctamente, aparecerá un ejemplo de solicitud curl. Debe reemplazarla con su propia clave y generar una clave permanente haciendo clic en Clave API. Según el proyecto de muestra oficial, los parámetros de entrada se transmiten en formato base64 y otros parámetros permanecen sin cambios. La respuesta es rápida después de la solicitud y la copia se extrae con precisión.
A continuación, cree el servicio Cozy Voice, utilizando también la plantilla oficial y manteniendo otras configuraciones coherentes con Whisper. Después de esperar a que se inicie el servicio, genere la clave API y reemplácela en el comando curl. Una vez configurados los parámetros de entrada, copie el curl editado a la consola de comandos para su ejecución. En este punto, se completa todo el servicio de clonación de sonido. Vale la pena mencionar que la construcción de servicios sin servidor de la plataforma Zhiling es muy flexible y todos pueden convertir los productos AIGC que les interesan en servicios. El blogger recomienda el video de enseñanza oficial y el repositorio de GitHub para que todos obtengan más información.
Una vez configurado el servicio, comenzamos a escribir al cliente. Esta vez el blogger optó por crear una aplicación de una sola página y usar Cursor para completarla. Los estudiantes que no estén familiarizados con Cursor pueden ver videos relacionados publicados previamente por blogueros. La aplicación es un formulario que contiene cuatro parámetros de configuración: Whisper id, Whisper api key, Cozy voice id, Cozy voice api key y dos parámetros comerciales: audio de muestra y copia clonada. Después de hacer clic en Ejecutar, JS codificará en base64 el audio de muestra internamente, llamará al servicio Whisper para obtener una copia del audio de muestra y luego llamará a Cozy Voice para clonar y generar el sonido.
Durante la prueba, el blogger descubrió que Whisper no podía obtener con precisión la copia requerida cada vez y que había ciertos errores tipográficos. Por lo tanto, se ha agregado a la interfaz un botón separado de conversión de voz a texto. Si el usuario hace clic en este botón, se repetirá el resultado de la conversión de voz a texto, lo que le permitirá modificar el texto incorrecto y garantizar la precisión de la clonación de voz. Si el usuario hace clic directamente en Clonar voz, el paso de conversión de voz a texto será manejado internamente por el programa y no se repetirá.
En general, el proyecto funcionó bien. El blogger cargará el proyecto completo en GitHub, incluido el código y las palabras clave. Después de descargarlo localmente, reemplácelo con su propia clave API e identificación y podrá usarlo normalmente. Todos los enlaces y recursos mencionados en el video se colocarán en los comentarios principales para que los estudiantes que necesiten usarlos como autoayuda.
Compartir en Twitter Compartir en Facebook
Comentarios
Actualmente no hay comentarios