
إذا واجهت مشكلة في تسهييل الفيديو، يرجى الضغط على رابط المصدر لمشاهدته على الموقع الرسمي
خلال فعاليات مؤتمر “إم دبليو سي” (MWC)، توافد الزوار على جناح شركة غوغل للحديث عن أحدث منتجاتها، وقد أتيحت للجزيرة فرصة لقاء المدير العام الإقليمي لغوغل كلاود في قطر والبحرين وعمان والعراق، غسّان كوستا، للحديث عن أحدث منتجات الذكاء الاصطناعي، جيميناي 3.0.
سألت الجزيرة كوستا عن جيميناي 3.0 والتقديرات الإيجابية التي حظي بها مؤخرًا، سواء من قبل الخبراء أو المستخدمين، وما إذا كانت غوغل قد عثرت على السر الذي يمكّنها من العودة إلى سباق الذكاء الاصطناعي.
تحدث كوستا بصراحة وبتفصيل عن مفهوم بناء “منظومة الذكاء الاصطناعي” التي عملت غوغل على تطويرها على مدار السنوات الماضية، مع تفاصيل الحوار التالية.
في البداية، ذكر كوستا: “إن جيميناي ليس ابتكارًا مفاجئًا بل هو نتاج 27 عامًا من الجهود المتركزة في منظومة متكاملة، وليس مجرد نموذج جديد للذكاء الاصطناعي.”
وأضاف: “قوة جيميناي لا تأتي من النموذج فقط، بل هي نتاج عمل غوغل المتواصل في تطوير سلسلة كاملة لمنظومة الذكاء الاصطناعي.”
لفهم ما يعنيه كلام كوستا، ينبغي علينا العودة قليلاً إلى الماضي.
الإخفاق كان الطريق لهذا النجاح
لم يكن الطريق نحو جيميناي 3.0 مفروشًا بالورود، فقد جاء نتيجة سلسلة من العثرات التي هزّت صورة الشركة لبعض الوقت، إذ أدى إطلاق نموذج بارد (Bard) المتعثر في 2023، الذي أثبت عدم جاهزيته ومليء بالأخطاء، إلى خسائر كبيرة في القيمة السوقية لغوغل.
ثم جاء الحديث عن انقسام داخلي بين الفرق التي تعمل على نماذج الذكاء الاصطناعي، مما أظهر غياب رؤية موحدة داخل واحدة من أكبر شركات الذكاء الاصطناعي في العالم.
حتى النسخة الأولى من جيميناي لم تكن بمستوى المنافسة مع (جي بي تي-4)، مما دفع بعض المحللين للتأكيد على أن غوغل “فقدت الريادة في مجال الذكاء الاصطناعي.”
من الشريحة إلى السحابة
يشير كوستا إلى أن هناك عوامل لا بد من أخذها بعين الاعتبار عند الحديث عن أي منظومة قوية للذكاء الاصطناعي: “لا أتحدث فقط عن النموذج كما هو الحال في (جيميناي 3)، بل عن منظومة متكاملة تبدأ من العتاد والتقنية وتنتهي بنموذج الذكاء الاصطناعي وكل ما بينهما من طبقات مثل البيانات والمعلومات.”
لفهم هذا المفهوم، يجب علينا تقسيم المنظومة إلى خمس طبقات وفقًا لكوستا، تبدأ من:
الطبقة الأولى: الشريحة (جي بي يو) أم (تي بي يو)؟
تختلف غوغل عن باقي الشركات في مجال الذكاء الاصطناعي، ليس فقط فيما يتعلق بالنماذج التي تطورها، بل أيضًا في العتاد الذي تُدرّب عليه هذه النماذج، إذ تعتمد معظم الشركات على معالجات الرسوميات (GPUs) من إنفيديا، بينما أنشأت غوغل شرائح (تي بي يو) (TPU-Tensor Processing Units)، المخصصة بشكل خاص لعمليات الذكاء الاصطناعي فقط.
تتميز هذه الشرائح بأنها موجهة تمامًا للعمليات الرياضية الضخمة التي تُجرى على الشبكات العصبية، مثل ضرب المصفوفات، مما يمنحها قدرة كبيرة على تسريع التدريب والتشغيل بفاعلية أكبر من بطاقات الرسوميات التقليدية، والأهم من ذلك، أن غوغل تقوم بتصنيعها بنفسها، وتتحكم بكل جوانبها.
في الجيل السادس المعروف باسم (تي بي يو تريليم)، وصلت القدرة الحسابية إلى مستوى يتيح تدريب نماذج بحجم عشرات المليارات من المعاملات في وقت أقل وبتكلفة طاقة أقل، وهو ما يشكل الأساس الذي تم بناء جيميناي 3.0 عليه.
حسب كوستا، بدلاً من الاعتماد على طرف ثالث مثل إنفيديا، استطاعت غوغل مواءمة العتاد مع البرمجيات والبيانات ضمن منظومة فائقة التكامل من الشريحة إلى السحابة.
لهذا السبب، وصف خبراء الصناعة الـ”تي بي يو” بأنها “السلاح السري” الذي تستخدمه غوغل للتفوق في سباق الذكاء الاصطناعي.
إنها ليست مجرد قطعة سيليكون، بل نظام متكامل يجسد رؤية الشركة بأن الذكاء الاصطناعي هو بنية تحتية شاملة تبدأ من العتاد.
الطبقة الثانية: السحابة العمود الفقري الحقيقي لقوة جيميناي
وراء القدرات المدهشة لجيميناي 3، تشير كوستا إلى طبقة قد لا يراها المستخدم بشكل مباشر، لكنها من أهم المكونات التي تمتلكها غوغل اليوم، وهي طبقة السحابة، ففي حين تعتمد معظم نماذج الذكاء الاصطناعي على بنى تحتية مستضافة من طرف ثالث، يمتاز جيميناي بأنه يعيش ويُنقل ويُدرب داخل منظومة سحابية بنتها غوغل من الصفر وتتحكم في كل أجزاءها.
وأوضح كوستا أن هذه الطبقة تمتد من مراكز البيانات فائقة الكفاءة إلى شبكات الألياف البصرية، وصولًا إلى الكوابل البحرية، جميعها مملوكة أو مدارة بواسطة غوغل، مما يجعلها في قلب البنية الرقمية العالمية.
وتعتبر هذه البيئة مثالية لتدريب نماذج مثل جيميناي، حيث لا تواجه غوغل مشاكل في اكتظاظ حركة البيانات، ولا ترتبط بحاجة الاعتماد على أطراف أخرى كما هو الحال مع الشركات المنافسة.
في نموذج بهذا الحجم، لا يكفي وجود معالج سريع فقط، بل مطلوب نظام قادر على نقل البيانات بسرعة وتنظيمها على آلاف الشريحة، ومزامنة التدريب عبر مئات الآلاف من العقد الشبكية، وهنا تتفوق غوغل بامتلاكها:
- بنية سحابية مصممة خصيصًا للذكاء الاصطناعي.
- تكامل تام بين مكونات مثل فيرتكس إيه آي (Vertex AI) و سحابة غوغل (Google Cloud) و تي بي يو (TPU).
- سرعة نقل البيانات وزمن استجابة يصعب على المنافسين تحقيقه بدون نفس البنية التحتية.
لذلك، يُعتبر سحابة غوغل “الطبقة الصامتة” التي تمكّن جيميناي من أداء غير متاح للنماذج الأخرى، فهي ليست مجرد مساحة تخزين أو قوة حوسبة، بل نظام عصبي كامل يسمح للنموذج بالتعلم والنمو بلا حدود.
الطبقة الثالثة: سلسلة الذكاء الاصطناعي… الهيكل الذي يجمع المنظومة
إذا كانت شرائح (تي بي يو) تمثل العضلات، والسحابة تمثل الهيكل العظمي، فإن الطبقة الثالثة، وهي سلسلة الذكاء الاصطناعي، تمثل الهيكل الذي يجمع مكونات منظومة غوغل للذكاء الاصطناعي، وهي الطبقة التي أكد عليها غسّان كوستا، بأنها تميز غوغل ليس فقط في النموذج لكن أيضًا في المحرك الداخلي الذي يبنى عليه جميع النماذج.
في حين تعتمد الشركات الأخرى على أدوات مفتوحة أو نظم خارجية لبناء نماذجها، تمتلك غوغل سلسلة كاملة من الأطر والأدوات والأنظمة الوسيطة، المصنوعة خصيصًا لتحسين كل التفاصيل، من كيفية جمع البيانات إلى إدارة التدريب، وحتى جدولة المصفوفات.
تتكون سلسلة الذكاء الاصطناعي لدى غوغل من:
- أطر التعلم العميق: تعتمد غوغل على تنسرفلو (TensorFlow) الذي طورتها بنفسها، وبالتالي لا تتعامل مع نموذج جاهز، بل مع إطار قابل للتعديل ليتناسب مع عتادها وسحاباتها.
- الأدوات الهندسية والأنظمة الوسيطة: نظم مثل باثوايز (Pathways) وأكس إل إيه (XLA) وفيرتكس إيه آي (Vertex AI) تعطي غوغل القدرة على التحكم الكامل في كل خطوة داخل نموذج الذكاء الاصطناعي.
- طبقة التفاعل بين العتاد البرمجي: هنا يكمن السر الذي يميز غوغل عن المنافسين، فالبرمجيات مصممة خصيصًا لتتناسب مع الشرائح، والشرائح مصممة لتناسب البرمجيات، مما يمنح جيميناي القدرة على التعامل مع سياقات مليونَي رمز بكفاءة غير مسبوقة.
- تكامل الأصول: السحابة، السلسلة، والنموذج، هذا التكامل العميق يجعل غوغل قادرة على تجربة بنى جديدة بسرعة، وتدريب نماذج عملاقة خلال أسابيع بدلاً من أشهر، وتحقيق أداء لا يصل إليه المنافسون الذين يجمعون مكوناتهم من مصادر متعددة، مما يمنح جيميناي قدرة على فهم الصور، الفيديو، الصوت، النص، والكود في قناة واحدة.
غسّان كوستا قال: “كل طبقة في منظومة غوغل مملوكة لنا، مما يمكننا من تحسين النموذج من القاعدة إلى القمة.”
الطبقة الرابعة: البيانات… الوقود الذي لا يملكه الآخرون، “نانو بنانا” الدليل
تظل طبقة البيانات من بين كل طبقات قوة غوغل في الذكاء الاصطناعي، هي الأقرب لوصف “السر غير القابل للاستنساخ”، فبينما تعتمد الشركات الأخرى على مجموعات بيانات مرخصة أو قاعدة بيانات عامة، تبني غوغل نماذجها بناءً على منظومة بيانات تُعتبر الأكبر والأغنى من نوعها في التاريخ الرقمي، من محرك البحث إلى يوتيوب، إلى الخرائط، إلى البريد، إلى الآلاف من التطبيقات عبر نظام أندرويد.
بحسب كوستا، تمثلت اللحظة التي أظهرت هذا التفوق اللافت عند إطلاق نموذج “نانو بنانا”، إذ أشار إلى أن النسخة التي طُرحت في الأسواق، استطاعت التعامل فورًا مع عشرات التطبيقات، والصور، والمهام، دون الحاجة إلى إعادة تدريب كبيرة أو ضبط معقد، وهذا يعود إلى تنوع البيانات التي تم تدريب النموذج عليها.
غسّان أوضح: “لم يكن الناس يدركون أن نانو بنانا نجح بهذه السرعة، لأن نموذجنا تدرب على بيانات متعددة الوسائط تمثّل ما يفعله المستخدمون في حياتهم اليومية.”
ما هو المختلف في بيانات غوغل ليجعل نموذج نانو بنانا بهذه القوة؟
بحسب عدة مواقع، مثل “غوغل جيميناي”، فإن هذه الخصائص في بيانات غوغل تجعلها الأكثر ملائمة لتدريب نماذج الذكاء الاصطناعي:
- غنى وتنوع الوسائط بالصياغة: نصوص، فيديو، صور، صوت، خرائط، أكواد، كلها تتدفق عبر منصات غوغل بشكل يومي.
- تمثيلها للعالم الواقعي: البيانات الناتجة عن مليارات المستخدمين، وليست مجموعات مكررة أو مصطنعة.
- اتساقها وترابطها: يمكن للنموذج ربط صورة من غوغل فوتوز بسياق من بحث غوغل أو نص من (جيميل) أو موقع من الخرائط.
- تهيئتها مسبقًا للتدريب: لأن الأنظمة التي تجمعها (بحث، يوتيوب، أندرويد) تم تصميمها من البداية لتكون قابلة للفهرسة والتحليل.
- تفهم عميق وليس تكرار سطحي.
هذا التنوع الكبير هو ما سمح لنسخة صغيرة مثل نانو بأن تعمل بكفاءة عالية منذ اليوم الأول، بسبب البيئة التي أصبح فيها النموذج كأنما كان يعيش فيها.
وهو ما يفسر أيضًا لماذا يتمكن جيميناي من فهم الصور والفيديو والصوت والكود في آن واحد، فالنموذج لم يتعلم كل نوع بشكل منفصل، بل استوعبها جميعًا كما هي تحدث في الواقع.
ميزة لا يمكن شراؤها
يشدد كوستا على أنه يمكن للمنافسين الحصول على الآلاف من معالجات (GPUs)، وبناء سحابة قوية، لكنّ لا أحد يمكن أن يشتري تاريخ البيانات الذي تمتلكه غوغل، لأنه نتاج 20 عامًا من تطوير أدوات يستخدمها الناس كل يوم، لذلك كانت “نانو بنانا” أكثر من مجرد إطلاق، بل كانت برهانًا على أن قوة البيانات ليست مجرد نظرية، بل ميزة عملية تمنح غوغل تقدمًا ملموسًا يصعب اللحاق به، بحسب كوستا.
الطبقة الخامسة: النموذج نفسه-عقل متعدد الحواس بني لفهم العالم
في حين تمثل الطبقات السابقة من العتاد والسحابة وسلسلة الذكاء الاصطناعي والبيانات العضلات والعظام والهياكل التي بُني عليها النظام، فإن النموذج نفسه هو الدماغ الذي يجمع كل تلك العناصر ويحولها إلى قدرة حقيقية على الفهم والتحليل والاستدلال، وفي حالة جيميناي 3، لم تبنِ غوغل مجرد نموذج لغوي جديد، بل صممت عقلًا متعدد الحواس يمكنه رؤية العالم وسماعه وقراءته وتحليل برمجياته في وقت واحد، مما يجعله يتفرد بعدة ميزات:
- نموذج متعدد الوسائط منذ الأساس: صُمم جيميناي كنموذج متعدد بطبيعته، حيث يحدث فهمه للصور والنصوص والصوت والفيديو داخل بنية واحدة.
- بنية معمارية متطورة: اعتمدت غوغل في جيميناي 3 على معمارية خاصّة تعرف بـ”سبير مكستشر أوف إكسبرتس”، مما يمكن النموذج من تنشيط الأجزاء المناسبة فقط ضمن الشبكة، مما يوفر أداءً أفضل وسرعة أكبر وكفاءة في استخدام الطاقة.
- نوافذ سياقية بملايين الرموز: من نقاط القوة البارزة لجيميناي 3 هو قدرته على التعامل مع سياقات تصل إلى 1-2 مليون رمز رسميًا، و10 ملايين رمز في الاختبارات، مما يعادل إمكانية تحليل مئات الصفحات من الوثائق والملفات الكبيرة في نفس الجلسة، وهذا التحسن ليس مجرد ترف تقني، بل يسهم في تغييرات جوهرية في طريقة استخدام الذكاء الاصطناعي عبر مجالات مختلفة.
- تفوق في اختبارات العالم الحقيقي: أظهرت الاختبارات قوة جيميناي 3 خصوصًا في نتائج إل إم أرينا، حيث حقق درجة تاريخية عند الإطلاق، متفوقاً على العديد من النماذج في فئات رئيسية.
عند اكتمال الطبقات، تحقق تفوق جيميناي 3.0، حيث اختتم كوستا الحديث عن رحلة جيميناي 3.0، موضحًا أن هذا النجاح جاء نتيجة رؤية واضحة كانت بحاجة إلى إتمام قبل ظهور جيميناي 3.0، إذ لم تكن غوغل تسعى لبناء نموذج للذكاء الاصطناعي بحد ذاته، بل نظامًا بيئيًّا كاملاً يتكون من خمس طبقات مترابطة، بدءًا من الشرائح المملوكة وصولًا إلى سحابة كبيرة وسلسلة أطر وبرمجيات للذكاء الاصطناعي، مما أدى إلى ظهور النموذج المتعدد الوسائط القادر على التفكير عبر ملايين الرموز، وهو جيميناي 3.0.
