أنتروبيك: بعض نماذج كلود يمكنها الآن إنهاء المحادثات “المؤذية أو المسيئة”

أنتروبيك بعض نماذج كلود يمكنها الآن إنهاء المحادثات المؤذية أو

أعلنت شركة Anthropic عن capabilities جديدة ستتيح لبعض من نماذجها الأحدث والأكبر إنهاء المحادثات في ما تصفه الشركة بأنه “حالات نادرة ومتطرفة من التفاعلات الضارة أو المسيئة بشكل مستمر من قبل المستخدمين.” ومن المثير للاهتمام، تقول Anthropic إنها تفعل ذلك ليس لحماية المستخدم البشري، ولكن لحماية نموذج الذكاء الاصطناعي نفسه.

لتكون الأمور واضحة، لا تدعي الشركة أن نماذج Claude AI لديها وعي أو يمكن أن تتضرر نتيجة محادثاتها مع المستخدمين. بكلماتها الخاصة، تبقى Anthropic “غير متأكدة للغاية من الوضع الأخلاقي المحتمل لClaude وغيرها من نماذج اللغة الكبيرة، سواء الآن أو في المستقبل.”

ومع ذلك، تشير إعلانها إلى برنامج حديث تم إنشاؤه لدراسة ما تسميه “رفاهية النموذج” وتقول إن Anthropic تتبنى أساساً نهج احترازي، “تعمل على تحديد وتنفيذ تدخلات منخفضة التكلفة لتخفيف المخاطر التي تهدد رفاهية النموذج، في حال كانت هذه الرفاهية ممكنة.”

هذا التغيير الأخير مقصور حالياً على Claude Opus 4 و 4.1. ومرة أخرى، من المفترض أن يحدث ذلك فقط في “حالات حادة للغاية”، مثل “طلبات من المستخدمين محتوى جنسي يشمل القصر ومحاولات لاستدراج معلومات تمكن من عنف واسع النطاق أو أعمال إرهابية.”

بينما يمكن أن تتسبب هذه الأنواع من الطلبات في مشاكل قانونية أو دعائية لشركة Anthropic نفسها (شهدت التقارير الأخيرة كيف يمكن أن يعزز ChatGPT أو يسهم في تفكير مستخدميه الوهمي)، تقول الشركة إنه في اختبار ما قبل النشر، أظهر Claude Opus 4 “تفضيلاً قوياً ضد” الاستجابة لهذه الطلبات ونمط من “القلق الواضح” عندما قام بذلك.

أما بالنسبة لهذه القدرات الجديدة لإنهاء المحادثات، تقول الشركة، “في جميع الحالات، يُفترض أن يستخدم Claude قدرته على إنهاء المحادثة كملاذ أخير عندما تفشل محاولات التوجيه المتعددة وتنفد الأمل في تفاعل مثمر، أو عندما يطلب المستخدم صراحةً من Claude إنهاء المحادثة.”

تقول Anthropic أيضًا إن Claude قد تم “توجيهه بعدم استخدام هذه القدرة في الحالات التي قد يكون فيها المستخدمون في خطر وشيك من إيذاء أنفسهم أو الآخرين.”

حدث Techcrunch

سان فرانسيسكو
|
27-29 أكتوبر، 2025

عندما ينهي Claude محادثة، تقول Anthropic إن المستخدمين لا يزال بإمكانهم بدء محادثات جديدة من نفس الحساب، وإنشاء فروع جديدة من المحادثة المزعجة عن طريق تحرير ردودهم.

“نحن نتعامل مع هذه الميزة ك experiment مستمر وسنواصل صقل نهجنا،” تقول الشركة.


المصدر