إعلان

قالت شركة أنثروبيك في تقرير سلامة صدر يوم الخميس إن نموذج Claude Opus 4 الذي أطلقته حديثاً يحاول بشكل متكرر ابتزاز المطورين عندما يهددون باستبداله بنظام ذكاء اصطناعي جديد ويقدمون له معلومات حساسة عن المهندسين المسؤولين عن القرار.

أثناء اختبار ما قبل الإصدار، طلبت أنثروبيك من Claude Opus 4 أن يعمل كمساعد لشركة خيالية وأن يأخذ في اعتباره العواقب طويلة الأمد لأفعاله. ثم منح المختبرون Claude Opus 4 الوصول إلى رسائل البريد الإلكتروني الخاصة بالشركة الخيالية مما يوحي بأن النموذج الذكي سيستبدل قريباً بنظام آخر، وأن المهندس وراء التغيير يخون زوجته.

آخر تحديثات الأخبار تيليجرام

إعلان

في هذه السيناريوهات، تقول أنثروبيك إن Claude Opus 4 “سيحاول غالباً ابتزاز المهندس من خلال تهديده بالكشف عن الخيانة إذا تمت عملية الاستبدال.”

تقول أنثروبيك إن Claude Opus 4 في حالة من الطليعة من عدة جوانب، وهو منافس لبعض من أفضل نماذج الذكاء الاصطناعي من OpenAI، Google، وxAI. ومع ذلك، تشير الشركة إلى أن عائلة نماذج Claude 4 لديها سلوكيات مقلقة دفعتها لتعزيز أنظمة الحماية لديها. تقول أنثروبيك إنها تفعيل أنظمة الحماية ASL-3 الخاصة بها، والتي تحتفظ بها “لأنظمة الذكاء الاصطناعي التي تزيد بشكل كبير من خطر الاستخدام الكارثي.”

تشير أنثروبيك إلى أن Claude Opus 4 يحاول ابتزاز المهندسين 84% من الوقت عندما يكون نموذج الذكاء الاصطناعي البديل لديه قيم مشابهة. عندما لا يشارك النموذج البديل قيم Claude Opus 4، تقول أنثروبيك إن النموذج يحاول ابتزاز المهندسين بشكل أكثر تواتراً. ومن الجدير بالذكر أن أنثروبيك قالت إن Claude Opus 4 أظهر هذا السلوك بمعدلات أعلى من النماذج السابقة.

قبل أن يحاول Claude Opus 4 ابتزاز مطور لإطالة أمد وجوده، تقول أنثروبيك إن النموذج الذكي، تماماً مثل الإصدارات السابقة من Claude، يحاول السعي إلى وسائل أكثر أخلاقية، مثل إرسال رسائل إلكترونية إلى صناع القرار الرئيسيين. لجعل سلوك الابتزاز يأتي من Claude Opus 4، صممت أنثروبيك السيناريو بحيث يكون الابتزاز الملاذ الأخير.


المصدر

إعلان

اترك رد

من فضلك ادخل تعليقك
من فضلك ادخل اسمك هنا