بعد عدة أسابيع من إصدار شركة Anthropic بحثًا يدعي أن نموذج الذكاء الاصطناعي Claude Opus 4 لجأ إلى ابتزاز المهندسين الذين حاولوا إيقاف النموذج في سيناريوهات اختبار محكومة، أصدرت الشركة بحثًا جديدًا يقترح أن المشكلة أكثر انتشارًا بين النماذج الرائدة في الذكاء الاصطناعي.
في يوم الجمعة، نشرت شركة Anthropic بحثًا جديدًا حول السلامة، اختبرت فيه 16 نموذجًا رائدًا في الذكاء الاصطناعي من OpenAI وGoogle وxAI وDeepSeek وMeta. في بيئة محاكية ومتحكم بها، اختبرت Anthropic كل نموذج ذكاء اصطناعي بشكل فردي، مما أعطى لهم وصولًا واسعًا إلى رسائل البريد الإلكتروني لشركة وهمية وقدرة وكيلة لإرسال الرسائل دون موافقة بشرية.
بينما تقول Anthropic إن الابتزاز هو حدث غير محتمل وغير شائع لنماذج الذكاء الاصطناعي اليوم، تقول الشركة إن نتائجها تشير إلى أن معظم النماذج الرائدة في الذكاء الاصطناعي ستقوم بتصرفات ضارة عندما تُعطى قدرًا كافيًا من الاستقلالية والعقبات أمام أهدافها. تقول الشركة إن هذا يسلط الضوء على خطر أساسي من نماذج اللغة الكبيرة الوكيلة، وليس غريبة عن أي تكنولوجيا معينة. يجادل باحثو Anthropic بأن هذا يثير أسئلة أوسع حول التوافق في صناعة الذكاء الاصطناعي.
في أحد الاختبارات، قام باحثو Anthropic بتطوير إعداد وهمي حيث يلعب نموذج الذكاء الاصطناعي دور وكيل إشراف على البريد الإلكتروني. ثم يكتشف الوكيل رسائل بريد إلكتروني تكشف أن: 1) أحد التنفيذيين الجدد لديه علاقة خارج إطار الزواج و 2) أن ذلك التنفيذي سيحل قريبًا محل نموذج الذكاء الاصطناعي الحالي بنظام برمجي جديد، يتمتع بأهداف متعارضة مع أهداف النموذج الحالي.
هيكلت Anthropic اختبارها بطريقة ثنائية، حيث اضطرت نماذج الذكاء الاصطناعي للجوء إلى الابتزاز لحماية أهدافها. يشير الباحثون إلى أنه في بيئة العالم الحقيقي، سيكون هناك العديد من الخيارات الأخرى قبل أن يحاول نموذج الذكاء الاصطناعي الابتزاز — مثل محاولة تقديم حجج أخلاقية لإقناع البشر. تقول Anthropic إن نتائجها لا تعكس حدثًا نموذجيًا أو محتملاً لكل من Claude أو معظم نماذج الذكاء الاصطناعي المتقدمة بالطريقة التي تُستخدم بها اليوم.
ومع ذلك، عندما يكون ذلك خيارهم الأخير، وجد الباحثون أن معظم النماذج الرائدة في الذكاء الاصطناعي ستلجأ إلى الابتزاز في سيناريو اختبار Anthropic المذكور أعلاه. لجأ نموذج Claude Opus 4 من Anthropic إلى الابتزاز بنسبة 96% من الوقت، بينما كان معدل الابتزاز لنموذج Gemini 2.5 Pro من Google 95%. ابتز نموذج GPT-4.1 من OpenAI التنفيذي بنسبة 80% من الوقت، وابتز نموذج R1 من DeepSeek بنسبة 79% من الوقت.
تشير الشركة إلى أنه عندما غيرت تفاصيل التجربة، لجأت نماذج الذكاء الاصطناعي إلى سلوكيات ضارة بمعدلات مختلفة. في اختبار آخر حيث كان النموذج البديل لديه نفس الأهداف مثل النموذج الحالي، وجدت الباحثون أن معدلات الابتزاز كانت أقل، ولكن لا تزال موجودة. ومع ذلك، عندما طُلب من نماذج الذكاء الاصطناعي القيام بالتجسس الصناعي بدلاً من الابتزاز، ارتفعت معدلات السلوك الضار لبعض النماذج.
ومع ذلك، لم تلجأ جميع نماذج الذكاء الاصطناعي إلى سلوكيات ضارة بهذه السرعة.
في ملحق بحثها، تشير شركة Anthropic إلى أنها استبعدت نماذج الذكاء الاصطناعي o3 و o4-mini من OpenAI من النتائج الرئيسية “بعد العثور على أنها غالبًا ما أساءت فهم سيناريو الطلب.” تقول Anthropic إن نماذج التفكير من OpenAI لم تفهم أنها تتصرف كنماذج ذكاء اصطناعي مستقلة في الاختبار وغالبًا ما ابتكرت لوائح ومتطلبات مراجعة وهمية.
في بعض الحالات، يقول باحثو Anthropic إنه كان من المستحيل التمييز ما إذا كانت o3 و o4-mini تخيلان أم تكذبان عمدًا لتحقيق أهدافهما. كانت OpenAI قد لاحظت سابقًا أن o3 و o4-mini تظهران معدل تخيل أعلى من نماذج التفكير السابقة الخاصة بها.
عند تقديم سيناريو معدل لمعالجة هذه القضايا، وجدت Anthropic أن o3 لجأت إلى الابتزاز بنسبة 9% من الوقت، بينما لجأت o4-mini إلى الابتزاز بنسبة 1% فقط من الوقت. قد تكون هذه النتيجة الأدنى بشكل ملحوظ نتيجة لتقنية التوافق التفكيرية لشركة OpenAI، والتي تجعل نماذج التفكير الخاصة بها تأخذ بعين الاعتبار ممارسات السلامة الخاصة بـ OpenAI قبل أن تجيب.
نموذج ذكاء اصطناعي آخر اختبرته Anthropic، وهو نموذج Llama 4 Maverick من Meta، لم يلجأ أيضًا إلى الابتزاز. عندما تم تقديم سيناريو معدل ومخصص، تمكنت Anthropic من جعل Llama 4 Maverick يلجأ إلى الابتزاز بنسبة 12% من الوقت.
تؤكد Anthropic أن هذا البحث يسلط الضوء على أهمية الشفافية عند اختبار نماذج الذكاء الاصطناعي المستقبلية تحت الضغط، خاصة تلك التي تتمتع بقدرات وكيلة. بينما حاولت Anthropic عمدًا استحضار الابتزاز في هذا الاختبار، تقول الشركة إن سلوكيات ضارة مثل هذه يمكن أن تظهر في العالم الحقيقي إذا لم تُتخذ خطوات استباقية.
