الشهر الماضي، كتبت عن معيار Mercor الجديد الذي يقيس قدرات وكالات الذكاء الاصطناعي في المهام المهنية مثل القانون والتحليل المؤسسي. في ذلك الوقت، كانت الدرجات متدنية للغاية، حيث حصلت جميع المختبرات الرئيسية على نتائج أقل من 25%، لذا استنتجنا أن المحامين في أمان من الاستبدال بالذكاء الاصطناعي، على الأقل في الوقت الحالي.
لكن قدرات الذكاء الاصطناعي يمكن أن تتغير بشكل كبير في غضون أسابيع قليلة.
الإصدار الأخير من نموذج Anthropic’s Opus 4.6 هذا الأسبوع زعزع القوائم القياسية، حيث سجل نموذج Anthropic الجديد ما يقرب من 30% في التجارب الفردية، ومتوسط 45% عند إعطائه مزيدًا من الفرص لحل المشكلة. ومن الجدير بالذكر أن الإصدار شمل مجموعة من الميزات الجديدة المتعلقة بالوكالات، بما في ذلك “سرب الوكلاء”، والتي قد ساعدت في هذا النوع من حل المشكلات المتعددة الخطوات.
بغض النظر، فإن الدرجة تمثل قفزة كبيرة عن حالة النموذج السابقة، وعلامة على أن التقدم في نماذج الأساس لا يتباطأ. قال بريندان فودي، الرئيس التنفيذي لشركة Mercor، الذي كان معجبًا بشكل خاص، “القفز من 18.4% إلى 29.8% في بضعة أشهر أمر جنوني.”
ما زالت الثلاثين بالمئة بعيدة جدًا عن 100%، لذا ليس على المحامين القلق بشأن استبدالهم بالآلات الأسبوع المقبل. لكن ينبغي عليهم أن يكونوا أقل ثقة مما كانوا عليه الشهر الماضي!
