كيف تحايلت الشركات الصينية على “مجاعة” الذكاء الاصطناعي؟
إذا اعتبرنا أن المعالجات الرسومية GPU هي غذاء الذكاء الاصطناعي، فإن الشركات الصينية تواجه ما يمكن أن نطلق عليه “مجاعة” منذ الحظر الأمريكي على مبيعات الرقائق الإلكترونية المتطورة للصين. والآن وبعد عامين تقريباً من هذا القرار، كيف استطاعت الشركات الصينية التحايل على هذا الحظر والعودة لسباق الذكاء الاصطناعي بأقل الإمكانيات؟
لا يخفى على أحد أن عالم الذكاء الاصطناعي يعتمد اليوم في ازدهاره على مئات الآلاف من المعالجات الرسومية المعروفة اختصاراً بالـGPU، وهو ما أدى إلى الصعود المذهل لقيمة شركة نفيديا وأسهمها، وساهم بشكل هائل في التطور السريع لكبرى منصات الذكاء الاصطناعي مثل شات جي بي تي وغيرها.
فعلى سبيل المثال، احتاج تدريب “لاما 3” أحدث موديلات الذكاء الاصطناعي الخاص بشركة ميتا إلى 16 ألف معالج من طراز H100 المتطور من نفيديا، وتسعى ميتا إلى زيادة هذا العدد بـ600 ألف معالج قبل نهاية العام.
ولكن منذ أكتوبر 2022، عندما قررت الولايات المتحدة الأمريكية أن تحظر بيع المعالجات القوية والمتطورة للصين، والشركات الصينية تعاني من أجل البقاء في هذا السباق الشرس فائق الذكاء، حتى أن بعضها اضطر إلى اللجوء – وفقاً للتقارير – إلى السوق السوداء والأسواق الموازية الأخرى من أجل شراء تلك المعالجات الثمينة، لكن الأغلبية توجهت إلى استراتيجية مختلفة باستغلال الموارد المتاحة أقصى استغلال ممكن، بشكل مثير للاهتمام.
لنأخذ شركة “ديب سيك” DeepSeek الصينية الناشئة ومقرها مقاطعة هانجو كمثال. في سبتمبر الجاري دشنت الشركة نسخة 2.5 من الذكاء الاصطناعي الخاص بها، والذي ينافس النماذج الرائدة مفتوحة المصدر فيما يتعلق بالبرمجة، ويعتمد على 10 آلاف معالج من المعالجات الأقدم من نيفيديا، وهو رقم ربما كبير بالنسبة للشركات الصينية لكنه صغيراً مقارنة بالمعايير الأمريكية.
لكن نموذج ديب سيك يتعامل مع النقص في العدد والتطور بأفضل شكل ممكن وبأفكار من خارج الصندوق فنياً، فمثلاً يعتمد على شبكات متعددة من “الخبراء الافتراضيين”، كل واحدة منها متخصصة في حل مشكلة أو مهمة معينة، ويقوم النموذج بتوزيع كل مشكلة على “الخبير الافتراضي” المناسب، وهو ما يؤدي إلى تحسين السرعة وتقليل وقت المعالجة، ما يؤدي بدوره إلى نتائج أفضل في وقت أقل.
وبالرغم من أن ديب سيك يعتمد على 236 مليار معامل متغير، وهي قيمة قابلة للتعديل تُستخدم لتدريب النموذج، فإنه لا يستهلك أكثر من عُشر هذا العدد لمعالجة أي مجموعة من المدخلات الجديدة، ويقوم بضغط المعلومات الجديدة أولاً بأول، وهو ما يسمح بالتعامل مع المعطيات كبيرة الحجم بشكل أكثر كفاءة من النماذج التقليدية.
ولا يقتصر الأمر على ديب سيك فحسب، بل هناك العديد من الشركات التي وجدت حلولاً مبتكرة لأزمة النقص في الموارد، مثل نموذج MiniCPM، التي طورته جامعة تسينجوا وشركة موديل بيست الناشئة، ويأتي بـ2.4 مليار معامل متغير فقط. وبالرغم من عدد المتغيرات الصغير نسبياً، فإن هذا النموذج يقدم أداءً يعادل 13 مليار متغير، أي ما يقارب 6 أضعاف قدراته الأصلية. ومثل ديب سيك، فإن النموذج يعتمد على نهج الخبراء الافتراضيين وضغط المدخلات، من أجل الحصول على أداء يفوق قدراته.
هذا لا يعني أن هذا التوجه يقتصر على الشركات الصينية، فعلى سبيل المثال نموذج جيست، التي دشنته شركة غوغل في يوليو الماضي تم تغذيته بعينات صغيرة من البيانات عالية الجودة، قبل السماح له باستقبال مدخلات أكبر حجماً وأقل جودة، وهو ما أدى إلى أن يكون 13 مرة أسرع و10 مرات أكفأ من الطرق الاعتيادية، على حد زعم جوجل.
لكن يبقى الفارق بين الشركات الأمريكية ونظيرتها الصينية، أن الأخيرة ليست لديها رفاهية اختيار الطريقة التي تود التعامل مع ندرة الموارد. وكما يقول ناثان بينيتش من صندوق إير ستريت كابيتال الاستثماري للذكاء الاصطناعي “إن عقلية الندرة تحفز بالتأكيد زيادة الكفاءة”، أو كما تقول الحكمة في 3 كلمات شاملة وموجزة: الحاجة أم الاختراع.