
وجدت شركة غوغل أن دقة روبوتات الدردشة المعتمدة على النماذج اللغوية للذكاء الاصطناعي لا تصل إلى 70% في العديد من الحالات، وذلك بعد إجراء دراسة شاملة حول دقة هذه النماذج، وفقًا لتقرير موقع “ديجيتال تريندز”.
نتائج الدراسة
نشرت غوغل نتائج هذه الدراسة في تقرير مكون من 18 صفحة، وتناولت فيه طريقة اختبار النماذج والأسباب التي أدت إلى الحصول على تقييمات منخفضة، ويشير التقرير إلى أن هذه النماذج تخطئ في واحد من كل ثلاثة أسئلة موجهة إليها، رغم أن الإجابات قد تبدو منطقية.
أداء النماذج المختلفة
حصل نموذج “جيميناي 3 برو”، الذي أطلقته غوغل مؤخرًا، على أعلى درجة في هذا الاختبار، حيث حقق نسبة تجاوزت 69%، يليه “جيميناي 2.5 برو” بنسبة 62%، ثم “جي بي تي 5” بنسبة 61.8%، بينما حقق “كلود أوبس 4.5″ نسبة 51%، و”غروك” 53%.
آلية اختبار مكثفة
عتمدت مختبرات “ديب مايند” – التابعة للشركة والمسؤولة عن هذه الدراسة – على أربعة معايير مختلفة للتقييم وهي:
- معيار باراميتري: يقيس قدرة نموذج الذكاء الاصطناعي على الوصول بدقة إلى المعرفة الداخلية المتاحة لديه عند استخدام الأسئلة الواقعية.
- معيار بحثي: يختبر قدرة النموذج على البحث عبر الإنترنت واستخدام أدوات البحث بشكل عام لاسترجاع المعلومات وتجميعها بصورة صحيحة.
- معيار متعدد الوسائط: يعتمد هذا الاختبار على قياس قدرة النموذج في الإجابة الصحيح على المطالبات المتعلقة بالصور المدخلة.
- معيار الأساس 2: معيار موسع لاختبار قدرة النموذج في تقديم إجابات مستندة إلى سياق محدد والتماشي مع هذا السياق.
وتأتي هذه الدراسة بالتعاون مع مجتمع “كاغل” (Kaggle) العلمي، والذي يعد واحدًا من أكبر المجتمعات المهتمة بعلوم البيانات، حيث يوفر مصادر وأدوات رائدة لدراسة البيانات وتحليلها بشكل ملائم، ويولد كل معيار أكثر من 3500 نتيجة تم مشاركتها مع المجتمعات العلمية بصورة مفتوحة، كما تحتفظ الشركة بمجموعة من الاختبارات بصورة خاصة، واحتساب نتيجة كل معيار يعتمد على متوسط الاختبارات العامة والخاصة.
تباين واسع في النتائج
تباينت النتائج التي حققها كل نموذج بناءً على نوعية الأسئلة والمعيار الموجه إليه، ورغم تصدر “جيميناي 3 برو” في المجمل، إلا أن المعايير الفردية أظهرت اختلافًا كبيرًا في الأداء، ويشير تقرير “ديجيتال تريندز” إلى تفوق “شات جي بي تي 5” في معيار الأساس ومعيار البحث، مع كون المعيار متعدد الوسائط هو النقطة الأضعف في جميع النماذج.
من الملاحظ أن نموذج “غروك 4 فاست” يعد الأضعف في جميع الاختبارات بمعدل 36%، حيث انخفضت النسبة إلى 17% في المعيار متعدد الوسائط و15% في المعيار البارامتري، وتؤكد هذه الدراسة على قصور أدوات الذكاء الاصطناعي في الاختبارات المخصصة والمفصلة وفق ما جاء في التقرير، إذ يحذر من أن الأخطاء حتى وإن كانت ضعيفة قد تسبب ضررًا كبيرًا في مجالات حساسة مثل الصحة والمال.
