国内AI音声クローン:困難の突破からサーバーレスサービスの構築までの完全な戦略

(0 のコメント)

ショートビデオブロガーにとって、ビデオ形式は顔出しと顔なしの 2 つのカテゴリに大別できます。顔出しビデオのランダム性と比較して、ナレッジビデオやチュートリアルビデオを作成する場合、素材の記録とマッチングの形式はより制御可能です。通常、制作プロセスには、最初にコピーを作成し、次に録音し、最後に編集ソフトウェアで一致する素材をオーバーレイすることが含まれます。

しかし、ブロガーは実際には困難に直面します。喉の調子が悪かったり、気分が悪かったり、環境が騒がしかったりすると、録画が実行できなくなり、結果的に動画が中断され、ファンが失われることにつながります。このことから、ブロガーは AI に自分の音声を複製させるというアイデアを思いつきました。つまり、対応する音声を生成するためにコピーライティングを提供するだけで済みます。実際、ブロガーはすでにこのアイデアを実現しており、ビデオ内の音声はこの方法で生成されています。

建設サービスのモデル選択

AI 音声クローンを実装するには、まず適切なモデルを選択する必要があります。多くの TTS モデルの中で、Cozy Voice は最も優れたレビューとブロガーによるテスト結果が最も優れているモデルです。当初、ブロガーは自分のコンピュータに Cozy Voice を展開しましたが、生成プロセスには非常に時間がかかりました。結局のところ、大規模なモデル アプリケーションをローカルで実行すると大量の GPU リソースが消費されるため、この目的のために 4090 マシンを専用にする必要はありません。

コンピューティングパワーリースプラットフォームの助けを借りて

ブロガーはストール設定 AI を研究しているときに、偶然、Zhiling GPU コンピューティング パワー レンタル プラットフォームに出会いました。このプラットフォームは、インスタンスの迅速な起動とコンピューティング リソースのオンデマンド コンピューティングをサポートし、サーバーレスの形式で外部サービスを提供することもでき、この需要に完全に応えます。

音声テキスト変換サービスを構築する

このビルドには 2 つのサーバーレス サービスが必要で、そのうちの 1 つは音声テキスト変換サービスです。 Cozy Voice はサウンドをクローンするときにサンプル音声のテキストを送信する必要があるため、操作を簡素化するために、ブロガーはこのタスクを完了するために Whisper を選択しました。 Zhiling プラットフォームは、公式の Whisper テンプレートを提供するだけでなく、カスタマイズされたテンプレートもサポートしています。興味のある学生は、カスタマイズされた AIGC のニーズを満たすために、プラットフォームの公式チュートリアルに従って専用の AIGC テンプレートを作成できます。

具体的な構築手順は次のとおりです。サーバーレス サービスを追加して名前を付け、グラフィックス カード構成のアクティブ ワーカーをゼロに設定します。つまり、固定ワーカーは存在せず、呼び出されない場合には料金は発生しません。スケーリング ポリシーはキューとして構成されます。タスクが多すぎるとキューに入れられます。デフォルト設定をそのままにしておきます。サービスは音声に対応するテキストを同期的に返し、ストレージのマウントを必要としないため、テンプレート設定として Whisper を選択します。 「追加」をクリックして正常に開始すると、curl リクエストの例が表示されます。これを独自のキーに置き換え、[API キー] をクリックして永続キーを生成する必要があります。公式サンプルプロジェクトに基づいて、入力パラメータはbase64形式で送信され、その他のパラメータは変更されません。リクエスト後の応答は速く、コピーは正確に抽出されます。

完全なクローン作成サービスを構築する

次に、Cozy Voice サービスを構築します。これも公式テンプレートを使用し、他の構成は Whisper との一貫性を保ちます。サービスが開始されるのを待った後、API キーを生成し、curl コマンドに置き換えます。入力パラメータを設定したら、編集したカールをコマンド コンソールにコピーして実行します。この時点で、サウンド クローン サービス全体が完了します。 Zhilingプラットフォームのサーバーレスサービス構築は非常に柔軟であり、誰もが興味のあるAIGC製品をサービスに変えることができることは言及する価値があります。ブロガーは、誰もがより詳しい情報を入手できるように、公式の教育ビデオと GitHub リポジトリを推奨しています。

クライアントビルド

サービスがセットアップされたら、クライアントの作成を開始します。今回、ブロガーは単一ページのアプリケーションを作成し、カーソルを使用してそれを完成させることにしました。 Cursor に慣れていない学生は、ブロガーによって以前に投稿された関連ビデオを視聴できます。このアプリケーションは、Whisper ID、Whisper API キー、Cozy voice id、Cozy voice API キーの 4 つの構成パラメータと、サンプル オーディオとクローン コピーの 2 つのビジネス パラメータを含むフォームです。 「実行」をクリックすると、JS は内部でサンプル オーディオを Base64 エンコードし、Whisper サービスを呼び出してサンプル オーディオのコピーを取得し、Cozy Voice を呼び出してサウンドのクローンを作成して生成します。

テスト中に、ブロガーは、Whisper が必要なコピーを毎回正確に取得できず、特定のタイプミスがあることを発見しました。したがって、別の音声テキスト変換ボタンがインターフェイスに追加されました。ユーザーがこのボタンをクリックすると、音声からテキストへの変換結果がエコーされるため、ユーザーは間違ったテキストを修正し、音声クローン作成の精度を確保できます。ユーザーが [音声クローン] を直接クリックした場合、音声からテキストへのステップはプログラムによって内部的に処理され、エコーされません。

全体として、プロジェクトはうまくいきました。ブロガーは、コードやプロンプトワードを含むプロジェクト全体を GitHub にアップロードします。ローカルにダウンロードした後、独自の API キーと ID に置き換えると、通常どおり使用できるようになります。ビデオ内で言及されているすべてのリンクとリソースは、自助努力が必要な生徒のためにトップのコメントに配置されます。

現在評価されていません

コメント


現在コメントはありません

コメントする前にログインしてください: ログイン

最近の投稿

アーカイブ

2025
2024
2023
2022
2021
2020

カテゴリー

タグ

著者

フィード

RSS / 原子