هل كشفت البحث عن الحوسبة للذكاء الاصطناعي عن سيريبراس القادمة؟

لقد تسارعت الطلبات المتزايدة على أجهزة الكمبيوتر لتشغيل نماذج الذكاء الاصطناعي، ولكن هناك عقبتين رئيسيتين يجب على أي شخص في هذا المجال التغلب عليهما: الحصول على الشرائح المناسبة، وإيصالها إلى مراكز البيانات حيث يمكن أن تبدأ في تحقيق العائدات.

تعتبر General Compute، وهي شركة جديدة في مجال المعالجة السحابية للذكاء الاصطناعي — تختص في المرحلة التي تعمل فيها النماذج وتستجيب للمستخدمين بدلاً من التدريب — أنها تملك إجابات لهذه الأسئلة التي توضح إلى أين يتجه نظام الذكاء الاصطناعي. ساعدت تلك الإجابات في جمع 15 مليون دولار في جولة تمويل أولية بتقييم قدره 60 مليون دولار بعد التمويل، وقادتها FUSE VC مع مشاركة من Carya Venture Partners و Village Global Ventures.

أولاً، ما هي الشرائح المناسبة؟ لقد شهد الطلب على وحدات معالجة الرسوميات (GPUs) ارتفاعاً كبيراً، لكن أصبح من الحكمة السائدة أنها ليست الشرائح الأكثر ملاءمة لتشغيل نماذج الذكاء الاصطناعي بمجرد تدريبها. المرحلة التي يكون فيها النموذج نشطاً في توليد الاستجابات تتطلب مواصفات حسابية مختلفة عن التدريب، ويتم تصميم فئة جديدة من الشرائح خصيصاً لهذا الغرض. تشير صفقة نيفيديا التي بلغت 20 مليار دولار مع Groq في ديسمبر وطرح Cerebras العام في الأسبوع الماضي والذي بلغ 57 مليار دولار إلى الاتجاه الذي تسير فيه الأمور.

مع الضغط على القدرة الإنتاجية في كل من هؤلاء الشركات، وجد المؤسسان المشاركان لـ General Compute، الرئيس التنفيذي فين باكلوفسكي ورئيس التكنولوجيا جيسون جوديسون، خيارًا آخر. إنهم يتوجهون إلى الشرائح المتخصصة التي تصنعها SambaNova، وهي شركة مصنعة للشرائح مدعومة من إنتل تركز على الاستنتاج، وقد تراجعت قليلاً عن محادثات وادي السيليكون.

ربما يتغيّر هذا عندما تطلق SambaNova شرائحها الجديدة هذا العام. المعمارية أكثر مرونة وتستخدم ذاكرة أكبر لتخزين السياق خلال حسابات الاستنتاج، وتزعم SambaNova أنها تتفوق ليس فقط على GPUs بل أيضاً على الشرائح الأخرى المتخصصة التي تصنعها شركات مثل Groq أو Cerebras. يقول باكلوفسكي إن الشرائح الجديدة ستولد من 600 إلى 700 توكن في الثانية، مقابل حوالي 250 توكن في الثانية للـ GPUs.

لدى General Compute طلبات لشرائح SN50 بقيمة 300 مليون دولار، وتقول إنها ستكون أول neocloud تقوم بنشرها.

تساعد هذه الشرائح أيضاً في حل المشكلة الكبيرة الثانية – أين يمكن وضعها – بالنسبة لـ General Compute: إنها تعمل بالتبريد الهوائي، وليس بالتبريد المائي، وتستهلك طاقة أقل، مما يعني أنه يمكن تركيبها في مرافق مراكز البيانات الموجودة دون الحاجة إلى استثمارات جديدة في البنية التحتية.

يسعى باكلوفسكي إلى صفقات مشاركة الميزانية – ترتيبات حيث تقوم General Compute بتركيب أجهزتها في مرافق شخص آخر – ليس فقط مع مقدمي خدمات مراكز البيانات، ولكن أيضاً مع عمال التعدين للعملات المشفرة الذين يبحثون عن إعادة تخصيص بنيتهم التحتية حيث غالباً ما تفوق تكلفة إنتاج بيتكوين واحد سعرها.

أطلقت General Compute عرضها السحابي الأسبوع الماضي، مدعية أنها بالفعل الأسرع في تشغيل MiniMax 2.7، وهو نموذج لغوي مفتوح المصدر قوي.

جو هاسلمان هو مستثمر مغامر دخل في بدايات ازدهار الاستنتاج عندما استثمر في Groq في 2021. هذا العام، أطلق صندوقاً جديداً، Evercrest Capital Partners، يركز على مجال الذكاء الاصطناعي، وجعل General Compute أول استثماراته. يرى هاسلمان في شراكة SambaNova مع General Compute تشابهات مع علاقة Coreweave مع نيفيديا – ورفع Groq لصناعة الشرائح مع عرضها السحابي السابق.

“هم بحاجة إلى مزيج صحي من العملاء الذين سيضعون شرائحهم في بيئات ستحقق لهم نمواً كبيراً”، قال هاسلمان. “بقدر ما تقوم General Compute برهانها على SambaNova، فإن SambaNova تقوم برهانها على General Compute”.

السؤال هو أي نوع من البنية المعمارية للكمبيوتر ستلتقط أكبر قيمة في المستقبل الذكاء الاصطناعي. تعتبر السحب الاستنتاجية رهانات ضمنية على عالم يتكون من نماذج وعوامل متعددة، حيث لا يهيمن أي مزود واحد، وتصبح سرعة وتكلفة الاستنتاج المتغيرات التنافسية الرئيسية. ضع في اعتبارك جولة التمويل Series B بقيمة 113 مليون دولار التي تم جمعها لـ OpenRouter هذا الأسبوع، مما يعكس قدرة الشركة على تقديم الوصول إلى نماذج متعددة لعملائها من أجل تحسين نفقاتهم على التوكن.

تعتبر السرعة مهمة في تلك المعادلة، بالنسبة للسعر، وللقدرة. يريد باكلوفسكي تحويل الأعمال التي تستغرق ساعة من العمل لوكلاء البرمجة إلى مهام تستغرق خمس أو عشر دقائق، وجعل وكلاء الصوت لخدمة العملاء، الذين يتطلبون استنتاجاً أسرع للتحدث بشكل فعال، أكثر اقتصادية.

“إذا كنت تستخدم ChatGPT ويعطيك 50 توكن في الثانية، فهذا لا يزال أسرع بكثير مما يمكننا قراءته”، قال باكلوفسكي لـ TechCrunch، “الآن بعدما انتقلت الأمور إلى تفاعل وكيل مع وكيل، حيث يقوم الوكلاء بقراءة نيابة عنا أو بقرصنة قواعد البيانات، يحتاجون إلى أن يكونوا أسرع.”

عندما تشتري من خلال الروابط في مقالاتنا، قد نكسب عمولة صغيرة. هذا لا يؤثر على استقلاليتنا التحريرية.


المصدر