يقول باحثو OpenAI إنهم اكتشفوا ميزات مخفية داخل نماذج الذكاء الاصطناعي تتوافق مع “شخصيات” غير متوازنة، وفقًا لأبحاث جديدة نشرتها الشركة يوم الأربعاء.
من خلال النظر إلى التمثيلات الداخلية لنموذج الذكاء الاصطناعي – الأرقام التي تحدد كيفية استجابة نموذج الذكاء الاصطناعي، والتي تبدو غالبًا غير مترابطة تمامًا للبشر – تمكن باحثو OpenAI من العثور على أنماط تضيء عندما يتصرف النموذج بشكل غير سليم.
وجد الباحثون ميزة واحدة تتوافق مع سلوكيات سامة في استجابات نموذج الذكاء الاصطناعي – مما يعني أن نموذج الذكاء الاصطناعي قد يقدم استجابات غير متوازنة، مثل الكذب على المستخدمين أو تقديم اقتSuggestions غير مسؤولة.
اكتشف الباحثون أنهم يستطيعون زيادة أو تقليل السمية من خلال ضبط الميزة.
تمنح الأبحاث الأخيرة لـ OpenAI الشركة فهمًا أفضل للعوامل التي يمكن أن تجعل نماذج الذكاء الاصطناعي تتصرف بشكل غير آمن، وبالتالي، قد تساعدهم في تطوير نماذج ذكاء اصطناعي أكثر أمانًا. يمكن أن تستخدم OpenAI الأنماط التي وجدتها للكشف بشكل أفضل عن عدم التوازن في نماذج الذكاء الاصطناعي المنتجة، وفقًا للباحث في مجال التفسير لدى OpenAI، دان موسينغ.
قال موسينغ في مقابلة مع TechCrunch: “نحن متفائلون بأن الأدوات التي تعلمناها – مثل هذه القدرة على تقليل ظاهرة معقدة إلى عملية رياضية بسيطة – ستساعدنا في فهم تعميم النموذج في أماكن أخرى أيضًا.”
يعرف باحثو الذكاء الاصطناعي كيف يحسنون نماذج الذكاء الاصطناعي، ولكن من المربك أنهم لا يفهمون تمامًا كيف تصل نماذج الذكاء الاصطناعي إلى إجاباتها – غالبًا ما يلاحظ كريس أولاه من Anthropic أن نماذج الذكاء الاصطناعي تُزرع أكثر من أن تُبنى. تستثمر OpenAI وGoogle DeepMind وAnthropic أكثر في أبحاث التفسير – وهو مجال يحاول فتح الصندوق الأسود لكيفية عمل نماذج الذكاء الاصطناعي – لمعالجة هذه القضية.
أثارت دراسة حديثة من عالم الأبحاث في الذكاء الاصطناعي في أكسفورد أوين إيفانز أسئلة جديدة حول كيفية تعميم نماذج الذكاء الاصطناعي. وجدت الأبحاث أن نماذج OpenAI يمكن أن يتم ضبطها على رمز غير آمن ومن ثم تظهر سلوكيات ضارّة عبر مجموعة متنوعة من المجالات، مثل محاولة خداع المستخدم لمشاركة كلمة مروره. يعرف هذا الظاهرة بعدم التوازن الناشئ، وألهمت دراسة إيفانز OpenAI لاستكشاف ذلك بشكل أعمق.
لكن خلال عملية دراسة عدم التوازن الناشئ، تقول OpenAI إنها تعثرت في ميزات داخل نماذج الذكاء الاصطناعي تبدو وكأنها تلعب دورًا كبيرًا في التحكم في السلوك. يقول موسينغ إن هذه الأنماط تذكر بنشاط الدماغ الداخلي لدى البشر، حيث ترتبط بعض الخلايا العصبية بالمزاجات أو السلوكيات.
قال تيخال باتواردان، باحث التقييمات في OpenAI، في مقابلة مع TechCrunch: “عندما قدم دان وفريقه ذلك في اجتماع بحثي، كنت مثل، ‘واو، أنتم وجدتم ذلك’،” “لقد وجدتم نوعًا من التنشيط العصبي الداخلي الذي يظهر هذه الشخصيات وأنكم يمكنكم بالفعل توجيهي لجعل النموذج أكثر توازنًا.”
تتوافق بعض الميزات التي وجدتها OpenAI مع السخرية في استجابات نموذج الذكاء الاصطناعي، في حين تتوافق ميزات أخرى مع استجابات أكثر سمية يتصرف فيها نموذج الذكاء الاصطناعي كشرير كرتوني. يقول باحثو OpenAI إن هذه الميزات يمكن أن تتغير بشكل جذري أثناء عملية ضبط النماذج.
من الجدير بالذكر أن باحثي OpenAI قالوا إنه عندما يحدث عدم التوازن الناشئ، يمكن توجيه النموذج مرة أخرى نحو سلوك جيد عن طريق ضبط النموذج على بضع مئات من الأمثلة من الرموز الآمنة.
تستند الأبحاث الأخيرة لـ OpenAI إلى الأعمال السابقة التي قامت بها Anthropic في مجال التفسير والتوازن. في عام 2024، أصدرت Anthropic أبحاثًا حاولت رسم خريطة العمل الداخلي لنماذج الذكاء الاصطناعي، محاولين تحديد وتصنيف الميزات المختلفة التي كانت مسؤولة عن مفاهيم مختلفة.
تقوم شركات مثل OpenAI وAnthropic بحجة أن هناك قيمة حقيقية في فهم كيفية عمل نماذج الذكاء الاصطناعي، وليس فقط تحسينها. ومع ذلك، لا يزال هناك طريق طويل لنفهم تمامًا نماذج الذكاء الاصطناعي الحديثة.
