استنساخ الصوت بالذكاء الاصطناعي المحلي: من اختراق المعضلة إلى استراتيجية بناء الخدمة بدون خادم

(0 comments)

باعتبارك مدونًا للفيديو القصير، يمكن تقسيم تنسيقات الفيديو تقريبًا إلى فئتين: إظهار الوجه وبدون وجه. بالمقارنة مع عشوائية مقاطع الفيديو التي تظهر الوجه، عند إنشاء مقاطع فيديو تعليمية وفيديوهات تعليمية، يكون شكل تسجيل المواد ومطابقتها أكثر قابلية للتحكم. تتضمن عملية الإنتاج عادةً كتابة النسخة أولاً، ثم التسجيل، وأخيرًا تراكب المواد المطابقة في برنامج التحرير.

ومع ذلك، يواجه المدونون صعوبات في الممارسة العملية: عندما يكون الحلق غير مريح، أو يكون المزاج سيئًا، أو تكون البيئة صاخبة، لا يمكن إجراء التسجيل، مما يؤدي بدوره إلى انقطاع الفيديو وفقدان المعجبين. من هنا، توصل المدون إلى فكرة السماح للذكاء الاصطناعي باستنساخ صوته، أي أنه يحتاج فقط إلى توفير كتابة النصوص لإنشاء الصوت المقابل. في الواقع، لقد أدرك المدون هذه الفكرة بالفعل، ويتم إنتاج الصوت في الفيديو بهذه الطريقة.

اختيار النموذج لخدمات البناء

لتنفيذ استنساخ الصوت بالذكاء الاصطناعي، عليك أولاً اختيار الطراز المناسب. من بين العديد من نماذج TTS، يعتبر Cozy Voice هو النموذج الذي حصل على أفضل التقييمات وأفضل النتائج التي تم اختبارها من قبل المدونين. في البداية، قام المدون بنشر Cozy Voice على جهاز الكمبيوتر الخاص به، لكن عملية الإنشاء كانت تستغرق وقتًا طويلاً للغاية. بعد كل شيء، تشغيل تطبيقات النماذج الكبيرة محليًا يستهلك الكثير من موارد وحدة معالجة الرسومات، وليست هناك حاجة لتخصيص جهاز 4090 لهذا الغرض.

بمساعدة منصة تأجير الطاقة الحاسوبية

عن طريق الصدفة، اتصل المدون بمنصة تأجير الطاقة الحاسوبية Zhiling GPU أثناء البحث في إعداد الذكاء الاصطناعي. تدعم المنصة التشغيل السريع للمثيلات والحوسبة حسب الطلب لموارد الحوسبة، ويمكنها أيضًا توفير خدمات خارجية في شكل بدون خادم، مما يلبي هذا الطلب بشكل مثالي.

إنشاء خدمة تحويل الكلام إلى نص

يتطلب هذا الإصدار خدمتين بدون خادم، إحداهما خدمة تحويل الكلام إلى نص. نظرًا لأن Cozy Voice يحتاج إلى إرسال نص عينة الصوت عند استنساخ الصوت، ومن أجل تبسيط العملية، اختار المدون Whisper لإكمال هذه المهمة. لا توفر منصة Zhiling قوالب Whisper الرسمية فحسب، بل تدعم أيضًا القوالب المخصصة. يمكن للطلاب المهتمين إنشاء قوالب AIGC حصرية وفقًا للبرامج التعليمية الرسمية للمنصة لتلبية احتياجات AIGC المخصصة.

خطوات البناء المحددة هي كما يلي: إضافة خدمة بدون خادم، وتسميتها، وتعيين العامل النشط لتكوين بطاقة الرسومات على الصفر، أي أنه لا يوجد عامل ثابت، ولن يتم فرض أي رسوم عندما لا يتم استدعاؤه. يتم تكوين سياسات القياس كقوائم انتظار. عندما يكون هناك الكثير من المهام، يتم وضعها في قائمة الانتظار. احتفظ بالإعدادات الافتراضية. اختر Whisper لتكوين القالب لأن الخدمة تُرجع النص المطابق للصوت بشكل متزامن ولا تتطلب تخزينًا متصاعدًا. بعد النقر فوق "إضافة" للبدء بنجاح، سيظهر مثال لطلب التجعيد. تحتاج إلى استبداله بالمفتاح الخاص بك وإنشاء مفتاح دائم بالنقر فوق مفتاح API. استنادًا إلى نموذج المشروع الرسمي، يتم إرسال معلمات الإدخال بتنسيق base64، وتظل المعلمات الأخرى دون تغيير. الاستجابة سريعة بعد الطلب ويتم استخراج النسخة بدقة.

بناء خدمة استنساخ كاملة

بعد ذلك، أنشئ خدمة Cozy Voice، باستخدام القالب الرسمي أيضًا، مع الحفاظ على التكوينات الأخرى المتوافقة مع Whisper. بعد انتظار بدء الخدمة، قم بإنشاء مفتاح واجهة برمجة التطبيقات (API) واستبدله في أمر الضفيرة. بعد تعيين معلمات الإدخال، انسخ الضفيرة المحررة إلى وحدة تحكم الأوامر للتنفيذ. عند هذه النقطة، تكون خدمة استنساخ الصوت قد اكتملت بالكامل. ومن الجدير بالذكر أن بناء الخدمة بدون خادم لمنصة Zhiling مرن للغاية، ويمكن للجميع تحويل منتجات AIGC التي يهتمون بها إلى خدمات. يوصي المدون بالفيديو التعليمي الرسمي ومستودع GitHub للجميع للحصول على مزيد من المعلومات.

بناء العميل

بعد إعداد الخدمة، نبدأ في كتابة العميل. هذه المرة اختار المدون إنشاء تطبيق من صفحة واحدة واستخدام المؤشر لإكماله. يمكن للطلاب الذين ليسوا على دراية بالمؤشر مشاهدة مقاطع الفيديو ذات الصلة التي نشرها المدونون مسبقًا. التطبيق عبارة عن نموذج يحتوي على أربع معلمات تكوين: معرف Whisper، ومفتاح Whisper api، ومعرف الصوت المريح، ومفتاح واجهة برمجة التطبيقات الصوتية Cozy، ومعلمتان للأعمال: عينة صوتية ونسخة مستنسخة. بعد النقر فوق تنفيذ، سيقوم JS بتشفير نموذج الصوت داخليًا باستخدام Base64، واستدعاء خدمة Whisper للحصول على نسخة من عينة الصوت، ثم استدعاء Cozy Voice لاستنساخ الصوت وإنشاءه.

أثناء الاختبار، اكتشف المدون أن Whisper لم يتمكن من الحصول على النسخة المطلوبة بدقة في كل مرة، وكان هناك بعض الأخطاء المطبعية. ولذلك، تمت إضافة زر منفصل لتحويل الكلام إلى نص إلى الواجهة. إذا قام المستخدم بالنقر فوق هذا الزر، فسيتم تكرار نتيجة تحويل الكلام إلى نص، مما يسمح للمستخدم بتعديل النص غير الصحيح والتأكد من دقة استنساخ الصوت. إذا قام المستخدم بالنقر فوق Voice Clone مباشرةً، فسيتم التعامل مع خطوة تحويل الكلام إلى نص داخليًا بواسطة البرنامج ولن يتم تكرارها.

وبشكل عام، نجح المشروع بشكل جيد. سيقوم المدون بتحميل المشروع بأكمله إلى GitHub، بما في ذلك التعليمات البرمجية والكلمات السريعة. بعد تنزيله محليًا، استبدله بمفتاح واجهة برمجة التطبيقات (API) والمعرف الخاص بك ويمكنك استخدامه بشكل طبيعي. سيتم وضع جميع الروابط والموارد المذكورة في الفيديو في أعلى التعليقات للطلاب المحتاجين لاستخدامها في المساعدة الذاتية.

غير مصنف حاليا

تعليقات


لا يوجد حاليا أي تعليقات

الرجاء تسجيل الدخول قبل التعليق: تسجيل الدخول

المشاركات الاخيرة

أرشيف

2025
2024
2023
2022
2021
2020

فئات

العلامات

المؤلفون

يغذي

آر إس إس / ذرة