
أعلنت شركة ميتا عن إطلاق أداة ذكاء اصطناعي جديدة مفتوحة المصدر تحت اسم SAM Audio، التي تجيز عزل الأصوات وتنقية التسجيلات المليئة بالضوضاء، فقط من خلال كتابة وصف نصي لما يريده المستخدم، دون الحاجة إلى أدوات تحرير صوتية معقدة.
تتيح الأداة الجديدة للمستخدمين استخراج أصوات معينة، مثل الصوت البشري أو الآلات الموسيقية أو ضوضاء الخلفية، من تسجيل واحد مزدحم بالأصوات، في خطوة قد تساهم في تغيير كيفية التعامل مع تحرير الصوت في مجالات مثل البودكاست، والإنتاج الموسيقي، وصناعة الأفلام، وأدوات الإتاحة لذوي الإعاقة.
كيف تعمل SAM Audio؟
تعتمد الأداة على نموذج متعدد الوسائط يدعم ثلاثة أنواع من الأوامر:
– وصف نصي للصوت المطلوب عزله.
– اختيار بصري لشخص أو عنصر داخل فيديو لتحديد مصدر الصوت.
– تحديد زمني للحظة ظهور الصوت في التسجيل.
يمكن استخدام هذه الطرق بشكل منفصل أو دمجها معًا للحصول على تحكم أدق في عملية الفصل، ويستند النموذج تقنيًا إلى محرك Perception Encoder Audiovisual من “ميتا”، الذي يتيح له فهم الأصوات وتحليلها قبل فصلها بدقة عن بقية المقطع، وفقًا لتقرير نشره موقع “digitaltrends” واطلع عليه “العربية Business”.
أدوات قياس جديدة للأداء
مع إطلاق النموذج، أعلنت “ميتا” عن معيار تقييم جديد يحمل اسم SAM Audio-Bench لقياس أداء نماذج فصل الصوت، بالإضافة إلى أداة SAM Audio Judge التي تقيّم مدى طبيعية ودقة الصوت الناتج من وجهة نظر المستمعين، حتى دون الحاجة لوجود ملف مرجعي للمقارنة.
أظهرت نتائج التقييم تفوق النموذج عند الجمع بين أكثر من نوع من الأوامر، وقدرته على معالجة الصوت بسرعة تفوق الزمن الحقيقي، حتى في نطاق واسع.
استخدامات واسعة مع بعض القيود
تفتح SAM Audio آفاقًا متعددة للاستخدام، مثل:
– إزالة ضوضاء المرور من تسجيلات البودكاست.
– عزل الصوت البشري من تسجيل موسيقي.
– حذف أصوات غير مرغوب فيها، مثل نباح الكلاب، من تسجيلات منزلية.
ومع ذلك، اعترفت “ميتا” بوجود قيود حالية، مثل عدم دعم الأوامر الصوتية، وعدم القدرة على فصل الأصوات دون أي توجيه، إضافة إلى صعوبة التعامل مع الأصوات المتشابهة والمتداخلة، مثل فصل صوت فرد واحد داخل جوقة.
ضمن استراتيجية أوسع للذكاء الاصطناعي
جاء إطلاق SAM Audio ضمن توجه أكبر لشركة ميتا لتطوير نماذج ذكاء اصطناعي تفهم الصوت والسياق والتفاعل البشري، حيث تعمل الشركة على تحسين وضوح الصوت في نظاراتها الذكية، وتطوير نظارات واقع مختلط متقدمة متوقعة بحلول عام 2027، إلى جانب إنشاء مساعد محادثة ذكي قد ينافس شات جي بي تي.
الأداة متاحة الآن عبر Segment Anything Playground، مما يعزز توجه “ميتا” نحو إتاحة تقنيات الذكاء الاصطناعي المتقدمة للمطورين وصناع المحتوى حول العالم.
