تحدي برمجة جديد بالذكاء الاصطناعي ينشر نتائجه الأولى – والتي لا تبدو جيدة

Blue code on a dark background presented at an angle.

تحدي جديد في البرمجة باستخدام الذكاء الاصطناعي كشف عن أول فائز له — وأ estabele معيارًا جديدًا لمهندسي البرمجيات المدعومين بالذكاء الاصطناعي.

في يوم الأربعاء الساعة 5 مساءً بتوقيت المحيط الهادي، أعلن المعهد غير الربحي “لاود” عن أول فائز بجائزة K، وهي تحدي برمجة بالذكاء الاصطناعي متعدد الجولات تم إطلاقه بواسطة “Databricks” وأحد مؤسسي “Perplexity” أندي كونونسكي. كان الفائز مهندسًا برازيليًا باسم إدواردو روكا دي أندرادي، الذي سوف يتلقى 50,000 دولار كجائزة. لكن أكثر ما يفاجئ من الفوز هو نتيجته النهائية: فقد فاز بأجوبة صحيحة فقط لـ 7.5% من الأسئلة في الاختبار.

قال كونونسكي: “نحن سعداء لأننا بنينا معيارًا صعبًا بالفعل.”. “يجب أن تكون المعايير صعبة إذا كانت ستهم.” وأضاف: “ستكون الدرجات مختلفة إذا كانت المختبرات الكبيرة قد شاركت بأكبر نماذجها. لكن هذه هي النقطة. جائزة K تتم خارج الإنترنت مع حسابات محدودة، لذلك تفيد النماذج الأصغر والمفتوحة. أحب ذلك. إنه يحقق توازنًا في المنافسة.”

تعهد كونونسكي بمليون دولار لأفضل نموذج مفتوح المصدر يستطيع أن يسجل أكثر من 90% في الاختبار.

على غرار نظام SWE-Bench المعروف، تختبر جائزة K النماذج ضد قضايا محددة من GitHub كاختبار لمدى قدرة النماذج على التعامل مع مشاكل البرمجة في العالم الحقيقي. ولكن في حين أن SWE-Bench يستند إلى مجموعة ثابتة من المشكلات التي يمكن أن تتدرب عليها النماذج، تم تصميم جائزة K كـ “نسخة خالية من التلوث لـ SWE-Bench”، باستخدام نظام دخول محدد الزمان للحماية ضد أي تدريب خاص بمعايير محددة. للمرحلة الأولى، كان من المقرر تسليم النماذج بحلول 12 مارس. ثم قام منظمو جائزة K ببناء الاختبار باستخدام فقط القضايا المحددة من GitHub بعد ذلك التاريخ.

تتباين النتيجة 7.5% بشكل ملحوظ مع SWE-Bench نفسه، الذي يظهر حاليًا 75% كأعلى نتيجة في اختباره الأسهل “تم التحقق منه” و34% في اختباره الأصعب “الكامل”. لا يزال كونونسكي غير متأكد مما إذا كان الفارق بسبب التلوث في SWE-Bench أو مجرد تحدي جمع مشاكل جديدة من GitHub، لكنه يتوقع أن يجيب مشروع جائزة K على هذا السؤال قريبًا.

قال لـ TechCrunch: “كلما أجرينا المزيد من الجولات، ستحصل لدينا فكرة أفضل، لأننا نتوقع أن يتكيف الناس مع ديناميات المنافسة في هذه المسابقة كل بضع شهور.”

فعالية TechCrunch

سان فرانسيسكو
|
27-29 أكتوبر 2025

قد يبدو أنه مكان غريب للفشل، بالنظر إلى مجموعة واسعة من أدوات البرمجة بالذكاء الاصطناعي المتاحة بالفعل للجمهور — لكن مع سهولة المعايير، يرى العديد من النقاد أن مشاريع مثل جائزة K هي خطوة ضرورية نحو حل مشكلة التقييم المتزايدة للذكاء الاصطناعي.

قال الباحث في جامعة برينستون ساياش كابور، الذي قدم فكرة مشابهة في ورقة بحثية حديثة: “أنا متفائل جدًا بشأن بناء اختبارات جديدة للمعايير الحالية.”. “بدون مثل هذه التجارب، لا يمكننا فعليًا تحديد ما إذا كانت المشكلة هي التلوث، أو حتى مجرد استهداف لوحة صدارة SWE-Bench مع إنسان في الحلقة.”

بالنسبة لكونونسكي، ليست مجرد معيار أفضل، بل هو تحدٍ مفتوح لبقية الصناعة. قال: “إذا استمعت إلى الضجيج، من المفترض أن نرى أطباء بالذكاء الاصطناعي ومحامين بالذكاء الاصطناعي ومهندسي برمجيات بالذكاء الاصطناعي، وهذا ليس صحيحًا.”. وأضاف: “إذا لم نستطع حتى تجاوز 10% في SWE-Bench خالية من التلوث، فهذا هو الواقع من وجهة نظري.”


المصدر

Exit mobile version