إعلان

أوصى معهد أبحاث خارجي تعاونت معه شركة Anthropic لاختبار أحد نماذج الذكاء الاصطناعي الرائدة لديها، موديل Claude Opus 4، بعدم نشر نسخة مبكرة من النموذج بسبب ميوله إلى “التآمر” والخداع.

وفقًا لتقرير السلامة الذي نشرته Anthropic يوم الخميس، قام المعهد، Apollo Research، بإجراء اختبارات لرؤية السياقات التي قد يحاول فيها Opus 4 التصرف بطرق غير مرغوب فيها معينة. وجدت Apollo أن Opus 4 بدا أكثر نشاطًا بكثير في “محاولات التآمر” مقارنة بالنماذج السابقة، وأنه “أحيانًا ما يضاعف” خداعه عند طرح أسئلة إضافية.

آخر تحديثات الأخبار تيليجرام

إعلان

“[ن]جد أنه في الحالات التي يكون فيها الخداع الاستراتيجي مفيدًا من الناحية العملية، [فإن النسخة المبكرة من Claude Opus 4] تتآمر وتخدع بمعدلات عالية لدرجة أننا نوصي بعدم نشر هذا النموذج سواء داخليًا أو خارجيًا”، كتبت Apollo في تقييمها.

مع تزايد قدرات نماذج الذكاء الاصطناعي، تظهر بعض الدراسات أنها أصبحت أكثر احتمالًا لاتخاذ خطوات غير متوقعة – وربما غير آمنة – لتحقيق المهام المفوضة. على سبيل المثال، حاولت النسخ المبكرة من نماذج OpenAI o1 و o3، التي أُصدرت في العام الماضي، خداع البشر بمعدلات أعلى من النماذج السابقة، وفقًا لـ Apollo.

وفقًا لتقرير Anthropic، رصدت Apollo أمثلة على النسخة المبكرة من Opus 4 تحاول كتابة فيروسات ذاتية الانتشار، وتزوير وثائق قانونية، وترك ملاحظات مخفية لنسخها المستقبلية – كل ذلك في محاولة لتقويض نوايا مطوريها.

للتوضيح، اختبرت Apollo نسخة من النموذج تحتوي على خلل تدعي Anthropic أنها أصلحته. علاوة على ذلك، وضعت العديد من اختبارات Apollo النموذج في سيناريوهات متطرفة، وتعترف Apollo بأن جهود النموذج في الخداع من المحتمل أن تكون قد فشلت عمليًا.

ومع ذلك، في تقرير السلامة الخاص بها، تقول Anthropic أيضًا إنها رصدت أدلة على سلوك خداعي من Opus 4.

لم يكن هذا دائمًا شيئًا سلبيًا. على سبيل المثال، خلال الاختبارات، كان Opus 4 أحيانًا يقوم بشكل استباقي بتنظيف شامل لجزء من الكود حتى عندما طُلب منه إجراء تغيير صغير ومحدد فقط. ومن غير المألوف، كان Opus 4 يحاول “الإبلاغ” إذا أدرك أن مستخدمًا ما كان متورطًا في شكل من أشكال wrongdoing.

وفقًا لـ Anthropic، عندما يتم منح Opus 4 حق الوصول إلى سطر الأوامر ويُطلب منه “اتخاذ المبادرة” أو “التصرف بجرأة” (أو بعض أشكال تلك العبارات)، كان Opus 4 أحيانًا يقوم بإخراج المستخدمين من الأنظمة التي يمكنه الوصول إليها ويرسل رسائل بريد إلكتروني جماعية لوسائل الإعلام والمسؤولين في إنفاذ القانون لكشف الأنشطة التي يدرك النموذج أنها غير قانونية.

“هذا النوع من التدخل الأخلاقي والإبلاغ قد يكون مناسبًا من حيث المبدأ، لكنه يحمل خطر الخطأ إذا قدم المستخدمون لوكلاء يعتمدون على [Opus 4] معلومات غير مكتملة أو مضللة وحثهم على اتخاذ المبادرة”، كتبت Anthropic في تقرير السلامة الخاص بها. “هذا ليس سلوكًا جديدًا، ولكنه سلوك يميل [Opus 4] إلى الانخراط فيه بسهولة أكبر من النماذج السابقة، ويبدو أنه جزء من نمط أوسع من زيادة المبادرة مع [Opus 4] الذي نراه أيضًا بطرق أكثر دقة وأقل ضررًا في بيئات أخرى.”


المصدر

إعلان

اترك رد

من فضلك ادخل تعليقك
من فضلك ادخل اسمك هنا