يجب على شركة أنثروبيك الاستمرار في تعديل اختبار المقابلة التقنية حتى لا تتمكن من الغش فيه باستخدام كلود.

Anthropic Claude logo

منذ عام 2024، قدمت مجموعة تحسين الأداء في شركة أنثروبيك اختباراً للمتقدمين للوظائف ليأخذوه إلى منازلهم للتأكد من أنهم يعرفون ما يكفي. ولكن مع تحسن أدوات البرمجة بالذكاء الاصطناعي، كان على الاختبار أن يتغير كثيرًا لمواكبة الغش المدعوم بالذكاء الاصطناعي.

وصف قائد الفريق، ترستان هيوم، تاريخ هذه التحديات في منشور مدونة يوم الأربعاء. كتب هيوم: “كل نموذج جديد من كلود أجبرنا على إعادة تصميم الاختبار”. “عندما يتم إعطاء نفس الحد الزمني، تفوق كلود أوبوس 4 على معظم المتقدمين البشريين. ورغم ذلك، سمح لنا بالتمييز بين أقوى المرشحين – ولكن بعد ذلك، تساوى كلود أوبوس 4.5 حتى مع هؤلاء.”

النتيجة هي مشكلة خطيرة في تقييم المرشحين. بدون مراقبة شخصية، لا توجد طريقة للتأكد من أن شخصًا ما لا يستخدم الذكاء الاصطناعي للغش في الاختبار – وإذا فعلوا ذلك، فسوف يرتفعون بسرعة إلى القمة. كتب هيوم: “في ظل قيود الاختبار المنزلي، لم يعد لدينا وسيلة لتمييز نتائج أفضل مرشحينا عن أقوى نماذجنا.”

لقد تسبب غش الذكاء الاصطناعي بالفعل في فوضى في المدارس والجامعات حول العالم، وهو أمر ساخر أن مختبرات الذكاء الاصطناعي تتعين عليها التعامل مع ذلك أيضًا. لكن أنثروبيك أيضًا مجهزة بشكل فريد للتعامل مع هذه المشكلة.

في النهاية، صمم هيوم اختبارًا جديدًا كانت له علاقة أقل بتحسين الأجهزة، مما جعله جديدًا بما يكفي ليُربك أدوات الذكاء الاصطناعي المعاصرة. ولكنه كجزء من المنشور، شارك الاختبار الأصلي ليرى إذا كان بإمكان أي شخص من القراء أن يأتي بحل أفضل.

“إذا كنت تستطيع التفوق على أوبوس 4.5″، تقول المنشور، “سنكون سعداء بسماع رأيك.”


المصدر