«تحديات جديدة أمام روبوتات الدردشة بالذكاء الاصطناعي: دقة الأداء تقل عن 70%»

وجدت شركة غوغل أن دقة روبوتات الدردشة المعتمدة على النماذج اللغوية للذكاء الاصطناعي لا تصل إلى 70% في العديد من الحالات، وذلك بعد إجراء دراسة شاملة حول دقة هذه النماذج، وفقًا لتقرير موقع “ديجيتال تريندز”.

نتائج الدراسة

نشرت غوغل نتائج هذه الدراسة في تقرير مكون من 18 صفحة، وتناولت فيه طريقة اختبار النماذج والأسباب التي أدت إلى الحصول على تقييمات منخفضة، ويشير التقرير إلى أن هذه النماذج تخطئ في واحد من كل ثلاثة أسئلة موجهة إليها، رغم أن الإجابات قد تبدو منطقية.

أداء النماذج المختلفة

حصل نموذج “جيميناي 3 برو”، الذي أطلقته غوغل مؤخرًا، على أعلى درجة في هذا الاختبار، حيث حقق نسبة تجاوزت 69%، يليه “جيميناي 2.5 برو” بنسبة 62%، ثم “جي بي تي 5” بنسبة 61.8%، بينما حقق “كلود أوبس 4.5″ نسبة 51%، و”غروك” 53%.

آلية اختبار مكثفة

عتمدت مختبرات “ديب مايند” – التابعة للشركة والمسؤولة عن هذه الدراسة – على أربعة معايير مختلفة للتقييم وهي:

معيار باراميتري: يقيس قدرة نموذج الذكاء الاصطناعي على الوصول بدقة إلى المعرفة الداخلية المتاحة لديه عند استخدام الأسئلة الواقعية.
معيار بحثي: يختبر قدرة النموذج على البحث عبر الإنترنت واستخدام أدوات البحث بشكل عام لاسترجاع المعلومات وتجميعها بصورة صحيحة.
معيار متعدد الوسائط: يعتمد هذا الاختبار على قياس قدرة النموذج في الإجابة الصحيح على المطالبات المتعلقة بالصور المدخلة.
معيار الأساس 2: معيار موسع لاختبار قدرة النموذج في تقديم إجابات مستندة إلى سياق محدد والتماشي مع هذا السياق.

وتأتي هذه الدراسة بالتعاون مع مجتمع “كاغل” (Kaggle) العلمي، والذي يعد واحدًا من أكبر المجتمعات المهتمة بعلوم البيانات، حيث يوفر مصادر وأدوات رائدة لدراسة البيانات وتحليلها بشكل ملائم، ويولد كل معيار أكثر من 3500 نتيجة تم مشاركتها مع المجتمعات العلمية بصورة مفتوحة، كما تحتفظ الشركة بمجموعة من الاختبارات بصورة خاصة، واحتساب نتيجة كل معيار يعتمد على متوسط الاختبارات العامة والخاصة.

تباين واسع في النتائج

تباينت النتائج التي حققها كل نموذج بناءً على نوعية الأسئلة والمعيار الموجه إليه، ورغم تصدر “جيميناي 3 برو” في المجمل، إلا أن المعايير الفردية أظهرت اختلافًا كبيرًا في الأداء، ويشير تقرير “ديجيتال تريندز” إلى تفوق “شات جي بي تي 5” في معيار الأساس ومعيار البحث، مع كون المعيار متعدد الوسائط هو النقطة الأضعف في جميع النماذج.

من الملاحظ أن نموذج “غروك 4 فاست” يعد الأضعف في جميع الاختبارات بمعدل 36%، حيث انخفضت النسبة إلى 17% في المعيار متعدد الوسائط و15% في المعيار البارامتري، وتؤكد هذه الدراسة على قصور أدوات الذكاء الاصطناعي في الاختبارات المخصصة والمفصلة وفق ما جاء في التقرير، إذ يحذر من أن الأخطاء حتى وإن كانت ضعيفة قد تسبب ضررًا كبيرًا في مجالات حساسة مثل الصحة والمال.

«تحديات جديدة أمام روبوتات الدردشة بالذكاء الاصطناعي: دقة الأداء تقل عن 70%»

نتائج الدراسة

أداء النماذج المختلفة

آلية اختبار مكثفة

تباين واسع في النتائج

مواضيع تهمك

اخر الاخبار

مركز الفلك الدولي يسجل ظهور هلال شهر شوال نهارا في سماء أبو ظبي

ارتفاع سعر طبق البيض في القليوبية إلى 130 جنيهاً الأربعاء 18 مارس 2026

وزارة التربية تصدر تعليمات صارمة لتعزيز النزاهة والعدالة في مقابلات توظيف الأساتذة

أسعار الفضة في مصر اليوم الأربعاء 18 مارس 2026 وتفاصيل الأعيرة المتاحة

أمطار رعدية ورياح مثيرة للأتربة مع انخفاض درجات الحرارة 5 درجات في معظم المناطق غدًا

جدول امتحانات الأسبوع الأول من مارس

وزارة الزراعة تصدر تنبيها هامًا للفلاحين بخصوص آخر موعد لصرف الأسمدة الشتوية لعام 2026

القنوات الناقلة لمباراة أتليتكو مدريد وتوتنهام في إياب ثمن نهائي دوري أبطال أوروبا

حظك اليوم الخميس 19 مارس 2026 توقعات الأبراج والنصائح اليومية

بيان مصري يدعو الإعلاميين لوقف السجالات ويحذر من تصاعد الأزمة

تراجع أسعار الذهب اليوم الخميس 18 مارس 2026 في السوق المصرية

ترامب ينادي الفيدرالي بضرورة خفض الفائدة بشكل عاجل

أبرز المسلسلات المصرية التي أثارت اهتمام الجمهور في رمضان 2026 مع التركيز على فلسطينيو48

حالة الطقس في السعودية تحذر من أمطار غزيرة تؤثر على منطقة الرياض لعدة أيام

عمرو عبد العزيز يكشف عن تدهور حالة والدته الصحية بسبب جلطة في القلب

مدبولي يوجه بعرض وثيقة ملكية الدولة على الحكومة للحوار مع المستثمرين

موعد عرض مسلسل على قد الحب في رمضان 2026 والقنوات الناقلة للحلقة 29

مسؤولة بهيئة الأرصاد تكشف عن تقلبات جوية مرتقبة بدءًا من اليوم نتيجة منخفض سطحي فيديو

تراجع ملحوظ في أسعار الذهب في الأردن

الإطلاق العالمي لمسلسل «Invincible 4» وكافة تفاصيل القصة وموعد العرض