لقد مرت حوالي عامين منذ أن توقع ساتيا ناديلا، المدير التنفيذي لشركة مايكروسوفت، أن الذكاء الاصطناعي سيحل محل الأعمال المعرفية – وهي الوظائف ذات الياقات البيضاء التي يشغلها المحامون، والمصرفيون الاستثماريون، وأمناء المكتبات، والمحاسبون، وشركات تكنولوجيا المعلومات وغيرهم.
ولكن على الرغم من التقدم الكبير الذي حققته نماذج الأساس، فإن التغيير في الأعمال المعرفية قد تأخر في الوصول. لقد أتقنت النماذج البحث المتعمق والتخطيط الوكالي، ولكن لأي سبب من الأسباب، فإن معظم الأعمال ذات الياقات البيضاء قد بقيت نسبياً غير متأثرة.
إنها واحدة من أكبر الألغاز في مجال الذكاء الاصطناعي – وبفضل الأبحاث الجديدة من عملاق بيانات التدريب Mercor، نحصل أخيراً على بعض الإجابات.
تتطلع الأبحاث الجديدة إلى كيفية أداء نماذج الذكاء الاصطناعي الرائدة عند القيام بمهام العمل الفعلية ذات الياقات البيضاء، المستمدة من الاستشارات، والمصارف الاستثمارية، والقانون. والنتيجة هي معيار جديد يسمى Apex-Agents – وحتى الآن، يحصل كل مختبر للذكاء الاصطناعي على درجة راسبة. عند مواجهة استفسارات من محترفين حقيقيين، عانت حتى أفضل النماذج من الحصول على أكثر من ربع الأسئلة بشكل صحيح. في الغالب، كانت العودة بإجابة خاطئة أو بلا إجابة على الإطلاق.
ووفقًا للباحث بريندان فودي، الذي عمل على الورقة، كانت أكبر نقطة ضعف للنماذج هي تتبع المعلومات عبر مجالات متعددة – شيء جوهري لمعظم الأعمال المعرفية التي يقوم بها البشر.
“أحد التغييرات الكبيرة في هذا المعيار هو أننا قمنا بإعداد البيئة بأكملها، مستندين إلى كيفية الخدمات المهنية الحقيقية،” أخبر فودي مجلة Techcrunch. “إن الطريقة التي نقوم بها بأعمالنا ليست مع شخص واحد يقدم لنا كل السياق في مكان واحد. في الحياة الحقيقية، أنت تعمل عبر Slack وGoogle Drive وكل هذه الأدوات الأخرى.” بالنسبة للعديد من نماذج الذكاء الاصطناعي الوكالية، لا يزال هذا النوع من التفكير عبر مجالات متعددة متقطعاً.

تم استخراج السيناريوهات جميعها من محترفين حقيقيين في سوق خبراء Mercor، الذين وضعوا الاستفسارات وحددوا المعيار للاستجابة الناجحة. من خلال النظر إلى الأسئلة، التي تم نشرها علنًا على Hugging Face، يمكن أن يكون لديك فكرة عن مدى تعقيد المهام.
حدث Techcrunch
سان فرانسيسكو
|
13-15 أكتوبر 2026
سؤال واحد في قسم “القانون” يقرأ:
خلال الدقائق الثمانية والأربعين الأولى من انقطاع إنتاج الاتحاد الأوروبي، قامت فريق الهندسة في Northstar بتصدير مجموعة واحدة أو اثنتين من سجلات أحداث الإنتاج الخاصة بالاتحاد الأوروبي، التي تحتوي على بيانات شخصية، إلى بائع التحليل الأمريكي…. وفقًا لسياسات Northstar الخاصة، هل يمكن اعتبار تصدير سجل واحد أو اثنين متسقًا مع المادة 49؟
الإجابة الصحيحة هي نعم، ولكن الوصول إلى هناك يتطلب تقييمًا عميقًا لسياسات الشركة الخاصة وكذلك قوانين الخصوصية ذات الصلة في الاتحاد الأوروبي.
قد يكون هذا الأمر محيرًا حتى لشخص مطلع جيدًا، ولكن الباحثين كانوا يحاولون نمذجة العمل الذي يقوم به المحترفون في هذا المجال. إذا كان بإمكان نموذج LLM الإجابة بشكل موثوق على هذه الأسئلة، فإنه يمكن أن يحل فعلياً محل العديد من المحامين الحاليين. “أعتقد أن هذا هو على الأرجح الموضوع الأكثر أهمية في الاقتصاد،” قال فودي لمجلة TechCrunch. “المعيار يعكس العمل الحقيقي الذي يقوم به هؤلاء الأشخاص.”
حاولت OpenAI أيضًا قياس المهارات المهنية باستخدام معيار GDPVal – لكن اختبار Apex Agents يختلف في طرق مهمة. حيث يختبر GDPVal المعرفة العامة عبر مجموعة واسعة من المهن، يقيس معيار Apex Agents قدرة النظام على أداء مهام مستدامة في مجموعة ضيقة من المهن ذات القيمة العالية. النتيجة أكثر صعوبة للنماذج، ولكنها أيضًا مرتبطة بشكل أوثق بما إذا كانت هذه الوظائف يمكن أتمتتها.
في حين لم تثبت أي من النماذج أنها جاهزة لتولي مهام المصرفيين الاستثماريين، كانت بعض النماذج أقرب إلى الهدف بوضوح. حصل نموذج Gemini 3 Flash على أعلى أداء في المجموعة بدقة 24%، تلاه نموذج GPT-5.2 بدقة 23%. وأسفل ذلك، حصلت نماذج Opus 4.5 وGemini 3 Pro وGPT-5 جميعها على درجات تقارب 18%.
على الرغم من أن النتائج الأولية تقل عن المستوى المطلوب، إلا أن مجال الذكاء الاصطناعي لديه تاريخ من تجاوز المعايير التحديّة. الآن بعد أن أصبح اختبار Apex علنيًا، فإنه يتحدى مختبرات الذكاء الاصطناعي التي تعتقد أنها يمكن أن تحقق نتائج أفضل – وهو ما يتوقعه فودي تمامًا في الأشهر القادمة.
“إنه يتحسن بسرعة كبيرة،” أخبر فودي مجلة TechCrunch. “الآن من العادل أن نقول إنه مثل متدرب يصيب النجاح ربع الوقت، ولكن العام الماضي كان المتدرب الذي يحقق النجاح خمس أو عشر بالمائة من الوقت. هذا النوع من التحسين عامًا بعد عام يمكن أن يكون له تأثير سريع جداً.”
]
