
أعلنت شركة علي بابا كلاود، الرائدة في مجال الحلول السحابية المبتكرة، عن إطلاق نموذجين جديدين ومتطورين ضمن سلسلة Qwen3 للذكاء الاصطناعي، يركزان بشكل خاص على تقنيات توليد الأصوات واستنساخها بدقة عالية عبر الأوامر النصية، مما يمثل خطوة استراتيجية نحو تعزيز تطبيقات الصوت الاحترافية ورفع مستوى جودة المحتوى في شتى الصناعات.
Qwen3-TTS-VD-Flash: جيل جديد في توليد الأصوات
يتصدر النموذج الأول، الذي يحمل اسم Qwen3-TTS-VD-Flash، قائمة الابتكارات بقدرته الفائقة على إنشاء أصوات فريدة ومخصصة، بناءً على أوصاف دقيقة يمكن للمستخدمين تقديمها، حيث يشمل ذلك التحكم في المشاعر المعبر عنها، وتحديد نبرة الصوت المطلوبة، وضبط سرعة الإلقاء بدقة، كما يتيح النموذج للمستخدمين تخصيص خصائص إضافية مثل العمر ونوع الصوت والأسلوب العام، مما يمنحهم تحكمًا غير مسبوق وواسع النطاق في المخرجات الصوتية النهائية، ويضمن إنتاج محتوى صوتي يتطابق تمامًا مع رؤيتهم الإبداعية.
Qwen3-TTS-VC-Flash: ثورة في استنساخ الأصوات متعدد اللغات
أما النموذج الثاني، Qwen3-TTS-VC-Flash، فيبرز كابتكار مذهل في مجال استنساخ الأصوات، إذ يتميز بقدرته على نسخ صوت أي شخص من مقطع صوتي قصير لا يتجاوز ثلاث ثوانٍ فقط، ومن ثم إعادة إنتاجه ببراعة بعشر لغات مختلفة، مما يفتح آفاقًا واسعة للدبلجة السريعة والفعالة والوصول إلى جمهور عالمي دون عناء، وتقدم هذه الإمكانية المتقدمة حلولًا غير مسبوقة للمحتوى متعدد اللغات.
أداء تنافسي وتقنيات متقدمة
تتميز النماذج الجديدة من سلسلة Qwen3 بقدرتها الفائقة على معالجة النصوص المعقدة بكفاءة، وتقليد أصوات الحيوانات بدقة ملحوظة، فضلاً عن إمكانية استخراج الأصوات النقية من التسجيلات الموجودة، مما يعكس مرونة هذه الأدوات وقوتها في التعامل مع مختلف التحديات الصوتية، وقد أكدت الشركة تفوقها التقني الواضح في هذا المجال، كما يظهر من مقارنات الأداء التالية:
| الميزة | نموذج Alibaba Cloud Qwen3 | المنافس | المصدر / التفاصيل |
|---|---|---|---|
| أداء توليد الأصوات | يتفوق في الأداء | واجهة OpenAI الخاصة بنموذج GPT-4o mini-tts | تقرير “scmp” الذي اطلعت عليه “العربية Business” |
| معدل خطأ استنساخ الأصوات | يحقق معدل أخطاء أقل | ElevenLabs، MiniMax | تصريح “علي بابا” |
التوفر والتطبيقات الواسعة
تتوفر هذه الأدوات المبتكرة لجمهور واسع من المطورين والشركات عبر واجهة برمجة التطبيقات (API) الخاصة بـ “علي بابا كلاود”، كما أتاحت الشركة نسخًا تجريبية للنماذج على منصة Hugging Face، لتمكين المستخدمين من استكشاف إمكانياتها، ويأتي هذا الإطلاق في توقيت حاسم، حيث تشهد سوق تقنيات الصوت المدعومة بالذكاء الاصطناعي منافسة متصاعدة وطلبًا متزايدًا من قطاعات حيوية مثل الإعلانات، والألعاب، وصناعة الفيديو، مما يؤكد الأهمية الاستراتيجية لهذه التقنيات في المشهد الرقمي الحالي.
تفتح النماذج الجديدة آفاقًا غير محدودة لاستخدامات عملية واسعة النطاق، بما في ذلك إنتاج الإعلانات الصوتية الاحترافية الجذابة، والدبلجة متعددة اللغات للمحتوى العالمي، وصناعة الشخصيات الصوتية التفاعلية في الألعاب، ودعم قطاع التعليم الإلكتروني، بالإضافة إلى تحسين خدمات مراكز الاتصال وتجربة العملاء، وكل ذلك مع تحقيق وفر كبير في الوقت والتكاليف التشغيلية مقارنةً بالأساليب التقليدية المعقدة والمكلفة، مما يعزز الكفاءة والابتكار في شتى المجالات والصناعات.
