نموذج الذكاء الاصطناعي R1 المحسن من DeepSeek قد يجذب الجزء الأكبر من انتباه مجتمع الذكاء الاصطناعي هذا الأسبوع. لكن المختبر الصيني للذكاء الاصطناعي أطلق أيضًا إصدارًا أصغر، “مكثف”، من R1 الجديد، وهو DeepSeek-R1-0528-Qwen3-8B، والذي تدعي DeepSeek أنه يتفوق على النماذج ذات الحجم المماثل في بعض المعايير.
النموذج R1 المحسن الأصغر، الذي تم بناؤه باستخدام نموذج Qwen3-8B الذي أطلقته Alibaba في مايو كأساس، يقدم أداءً أفضل من Gemini 2.5 Flash من Google في AIME 2025، وهو مجموعة من الأسئلة الرياضية الصعبة.
كذلك، يُقارِن DeepSeek-R1-0528-Qwen3-8B تقريبًا نموذج Phi 4 الذي أطلقته Microsoft مؤخرًا في اختبار آخر لمهارات الرياضيات، HMMT.
النماذج المسماة مكثفة مثل DeepSeek-R1-0528-Qwen3-8B غالبًا ما تكون أقل قدرة من نظيراتها كاملة الحجم. ومن ناحية إيجابية، فإنها تتطلب حوسبة أقل بكثير. ووفقًا لمنصة NodeShift السحابية، يتطلب Qwen3-8B وحدة معالجة رسومات مع ذاكرة تصل إلى 40GB-80GB للعمل (مثل Nvidia H100). بينما يحتاج نموذج R1 الجديد كامل الحجم إلى حوالي اثني عشر وحدة معالجة رسومات بسعة 80GB.
قامت DeepSeek بتدريب DeepSeek-R1-0528-Qwen3-8B عن طريق أخذ نص مُنتج بواسطة R1 المحسن واستخدامه لضبط Qwen3-8B. في صفحة ويب مخصصة للنموذج على منصة تطوير الذكاء الاصطناعي Hugging Face، تصف DeepSeek DeepSeek-R1-0528-Qwen3-8B بأنه “لأبحاث أكاديمية على نماذج reasoning وتطوير صناعي يركز على النماذج صغيرة الحجم.”
DeepSeek-R1-0528-Qwen3-8B متاح بموجب ترخيص MIT، مما يعني أنه يمكن استخدامه تجاريًا دون قيود. تقدم عدة مضيفين، بما في ذلك LM Studio، النموذج بالفعل من خلال واجهة برمجة التطبيقات (API).