كشفت Google DeepMind عن Genie 3، أحدث نموذج عالمي أساسي تقول مختبرات الذكاء الاصطناعي إنه يمثل خطوة حاسمة على طريق الذكاء الاصطناعي العام، أو الذكاء الشبيه بالبشر.
قال شلومي فريختير، مدير الأبحاث في DeepMind، خلال مؤتمر صحفي: “جي أي 3 هو النموذج العالمي العام التفاعلي في الوقت الحقيقي الأول”. “إنه يتجاوز نماذج العالم الضيقة التي كانت موجودة من قبل. إنه ليس محددًا لأي بيئة معينة. يمكنه إنشاء عوالم فوتوغرافية واقعية وعوالم خيالية، وكل ما بينهما.”
يعتمد Genie 3، الذي لا يزال في مرحلة المعاينة البحثية وليس متاحًا للجمهور، على سلفه Genie 2 – الذي يمكنه إنشاء بيئات جديدة للوكيل – وعلى نموذج توليد الفيديو الأخير من DeepMind Veo 3 – الذي يُظهر فهمًا عميقًا للفيزياء.
بمجرد إدخال نص بسيط، يمكن لـ Genie 3 إنشاء عدة دقائق – من 10 إلى 20 ثانية في Genie 2 – من البيئات التفاعلية ثلاثية الأبعاد المتنوعة بسرعة 24 إطارًا في الثانية بدقة 720p. يتميز النموذج أيضًا بـ “أحداث العالم القابلة للتحفيز”، أو القدرة على استخدام التحفيز لتغيير العالم الذي تم توليده.
ربما الأهم من ذلك، أن محاكيات Genie 3 تظل متسقة من الناحية الفيزيائية مع مرور الزمن لأن النموذج قادر على تذكر ما تم توليده سابقًا – وهي قدرة ناشئة لم يقم باحثو DeepMind ببرمجتها بشكل صريح في النموذج.
قال فريختير إنه على الرغم من أن Genie 3 يحمل بوضوح تداعيات على التجارب التعليمية ووسائط الجيل الجديد مثل الألعاب أو تصميم المفاهيم الإبداعية، إلا أن فتحة النموذج الحقيقية ستظهر في تدريب الوكلاء على المهام العامة، والذي قال إنه أساسي للوصول إلى AGI.
قال جاك باركر-هولدر، عالم أبحاث في فريق الانفتاح في DeepMind، خلال مؤتمر: “نعتقد أن نماذج العالم هي المفتاح على طريق AGI، خاصةً للوكيل المتجسد، حيث يعد محاكاة السيناريوهات العالم الحقيقي تحديًا خاصًا.”
حدث Techcrunch
سان فرانسيسكو
|
27-29 أكتوبر 2025
تم تصميم Genie 3 لحل تلك الاختناق. مثل Veo، لا يعتمد على محرك فيزياء مشفر بشدة. بدلاً من ذلك، فإنه يُعلم نفسه كيف يعمل العالم – كيف تتحرك الأشياء، وتسقط، وتتفاعل – من خلال تذكر ما تم توليده والتفكير على مدى فترات زمنية طويلة.
قال فريختير في مقابلة منفصلة مع TechCrunch: “النموذج يتسم بالرسوم التلقائية، مما يعني أنه يولد إطارًا واحدًا في الوقت.” “يجب أن ينظر إلى ما تم توليده من قبل ليقرر ما الذي سيحدث بعد ذلك. هذه جزء أساسي من البنية.”
تخلق هذه الذاكرة اتساقًا في عوالمه المحاكية، وأن ذلك الاتساق يسمح له بتطوير نوع من الفهم الحدسي للفيزياء، مشابه لكيفية فهم البشر أن الكأس المتوازنة على حافة الطاولة على وشك السقوط، أو أنهم يجب عليهم الانحناء لتجنب جسم ساقط.
تجعل هذه القدرة على محاكاة بيئات متماسكة ومحتملة من الناحية الفيزيائية على مدى الزمن Genie 3 أكثر من مجرد نموذج توليدي. إنه يصبح ساحة تدريب مثالية للوكلاء العامين. يمكنه توليد عوالم متنوعة Endless لاستكشافها، ولكنه يتمتع أيضًا بإمكانية دفع الوكلاء إلى حدودهم – مما يجبرهم على التكيف، والصراع، والتعلم من تجربتهم بطرق تعكس كيفية تعلم البشر في العالم الحقيقي.
حاليًا، لا يزال نطاق الإجراءات التي يمكن للوكيل اتخاذها محدودًا. على سبيل المثال، تسمح أحداث العالم القابلة للتحفيز بمدى واسع من التدخلات البيئية، لكنها ليس بالضرورة أن تُنفذ بواسطة الوكيل نفسه. بالمثل، لا يزال من الصعب نمذجة التفاعلات المعقدة بين العديد من الوكلاء المستقلين في بيئة مشتركة بدقة. يمكن لـ Genie 3 أيضًا دعم بضع دقائق فقط من التفاعل المستمر، عندما تكون الساعات ضرورية للتدريب المناسب.
ومع ذلك، يمثل Genie 3 خطوة مقنعة إلى الأمام في تعليم الوكلاء لتجاوز الاستجابة المدخلات حتى يتمكنوا من التخطيط، والاستكشاف، والبحث عن عدم اليقين، والتحسن من خلال التجربة والخطأ – وهو نوع من التعلم المدفوع ذاتيًا والجسد الذي يعد key لط moving towards general intelligence.
قال باركر-هولدر: “لم يكن لدينا حقًا لحظة Move 37 للوكلاء المتجسدين بعد، حيث يمكنهم اتخاذ إجراءات جديدة في العالم الحقيقي”، مشيرًا إلى اللحظة الأسطورية في لعبة Go لعام 2016 بين وكيل DeepMind AI AlphaGo وبطل العالم لي سيدول، حيث لعب Alpha Go حركة غير تقليدية ورائعة أصبحت رمزًا لقدرة الذكاء الاصطناعي على اكتشاف استراتيجيات جديدة تتجاوز فهم البشر.
قال: “لكن الآن، يمكننا أن نكون في طريقنا لعصر جديد”.