يوم الجمعة الماضي، قدمت OpenAI نظام برمجة جديد يسمى Codex، مصمم لأداء مهام برمجة معقدة بناءً على أوامر اللغة الطبيعية. تحرك Codex OpenAI إلى مجموعة جديدة من أدوات برمجة الوكلاء التي بدأت للتو في التشكل.
من Copilot المبكر على GitHub إلى الأدوات المعاصرة مثل Cursor وWindsurf، تعمل معظم مساعدات البرمجة المدعومة بالذكاء الاصطناعي كشكل ذكي بشكل استثنائي من الإكمال التلقائي. تعيش هذه الأدوات عادةً في بيئة تطوير متكاملة، ويتفاعل المستخدمون مباشرة مع الكود الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. إن احتمال تعيين مهمة ببساطة والعودة عند الانتهاء منها هو في الغالب بعيد المنال.
لكن هذه الأدوات الجديدة من برمجة الوكلاء، بقيادة منتجات مثل Devin وSWE-Agent وOpenHands وOpenAI Codex المذكور أعلاه، مصممة للعمل دون أن يرى المستخدمون الكود أبدًا. الهدف هو العمل كمدير لفريق هندسي، وتعيين القضايا من خلال أنظمة العمل مثل Asana أو Slack والتحقق من الحل عندما يتم التوصل إليه.
بالنسبة للمؤمنين بأشكال الذكاء الاصطناعي القوية، فإنه الخطوة المنطقية التالية في تقدم الأتمتة التي تتولى المزيد والمزيد من الأعمال البرمجية.
“في البداية، كتب الناس الكود فقط من خلال الضغط على كل حرف من لوحة المفاتيح” يشرح كيليان ليريت، باحث في برينستون وعضو في فريق SWE-Agent. “كانت GitHub Copilot أول منتج يقدم إكمالًا تلقائيًا حقيقيًا، وهو نوع من المرحلة الثانية. لا تزال بالتأكيد في الحلقة، ولكن في بعض الأحيان يمكنك اتخاذ اختصار.”
الهدف لأنظمة الوكلاء هو الانتقال بالكامل بعيدًا عن بيئات المطورين، بدلاً من تقديم وكلاء البرمجة مشكلة وتركهم لحلها بمفردهم. “نحن نرجع الأمور إلى طبقة الإدارة، حيث أخصص تقرير خطأ ويحاول الروبوت إصلاحه بشكل مستقل تماماً” يقول ليريت.
إنها هدف طموح، وحتى الآن، أثبتت أنها صعبة.
بعد أن أصبحت Devin متاحة بشكل عام في نهاية عام 2024، حصلت على انتقادات شديدة من النقاد على YouTube، بالإضافة إلى انتقادات أكثر اعتدالًا من عميل مبكر في Answer.AI. كانت الانطباعات العامة مألوفة لذوي الخبرة في برمجة الأجواء: مع وجود الكثير من الأخطاء، يتطلب الإشراف على النماذج نفس مقدار العمل مثل القيام بالمهمة يدويًا. (بينما كانت إطلاق Devin مليئًا بالتحديات، لم يمنع ذلك الجهات المانحة من التعرف على الإمكانات – في مارس، ذكرت أن الشركة الأم لـ Devin، Cognition AI، جمعت مئات الملايين من الدولارات بتقييم 4 مليارات دولار.)
حتى مؤيدي هذه التكنولوجيا يحذرون من برمجة الأجواء غير المراقبة، ويرون وكلاء البرمجة الجدد كعناصر قوية في عملية تطوير تحت إشراف البشر.
“في الوقت الحالي، وأود أن أقول، في المستقبل القريب، يجب على إنسان التدخل في وقت مراجعة الكود للنظر إلى الكود الذي تم كتابته” يقول روبرت برينان، الرئيس التنفيذي لشركة All Hands AI، التي تدير OpenHands. “لقد رأيت عدة أشخاص يدمرون أنفسهم من خلال الموافقة التلقائية على كل جزء من الكود الذي يكتبه الوكيل. الأمور تتعقد بسرعة.”
الأوهام هي مشكلة مستمرة أيضًا. يتذكر برينان حادثة واحدة عندما، عند سؤاله عن واجهة برمجة التطبيقات التي تم إصدارها بعد انتهاء بيانات تدريب وكيل OpenHands، اخترع الوكيل تفاصيل واجهة برمجة التطبيقات التي تناسب الوصف. تقول All Hands AI إنها تعمل على أنظمة لالتقاط هذه الأوهام قبل أن تسبب ضررًا، لكن لا يوجد حل بسيط.
يمكن القول إن أفضل مقياس لتقدم برمجة الوكلاء هو لوحات الصدارة SWE-Bench، حيث يمكن للمطورين اختبار نماذجهم ضد مجموعة من القضايا غير المحلولة من مستودعات GitHub المفتوحة. تحتل OpenHands حاليًا المركز الأول على لوحة الصدارة الموثقة، حيث تحل 65.8% من مجموعة المشاكل. تدعي OpenAI أن أحد النماذج المدعومة لـ Codex، codex-1، يمكنه فعل الأفضل، حيث سجل درجة 72.1% في إعلانه – على الرغم من أن الدرجة جاءت مع بعض التحذيرات ولم يتم التحقق منها بشكل مستقل.
القلق بين العديد في صناعة التقنية هو أن درجات المعايير العالية لا تعني بالضرورة برمجة الوكلاء القائمة على اليد. إذا كان بإمكان الوكلاء حل ثلاثة من كل أربعة مشاكل فقط، فسيتطلبون إشرافًا كبيرًا من المطورين البشر – خاصة عند التعامل مع أنظمة معقدة متعددة المراحل.
مثل معظم أدوات الذكاء الاصطناعي، الأمل هو أن التحسينات على نماذج الأساس ستأتي بوتيرة ثابتة، مما يمكّن أنظمة برمجة الوكلاء من النمو إلى أدوات تطوير موثوقة. لكن إيجاد طرق لإدارة الأوهام وغيرها من مشكلات الاعتمادية سيكون أمرًا حاسمًا للوصول إلى هناك.
“أعتقد أن هناك قليلًا من تأثير حاجز الصوت” يقول برينان. “السؤال هو، كم من الثقة يمكنك نقلها إلى الوكلاء، بحيث يأخذوا المزيد من عبء عملك في نهاية اليوم؟”