تقوم جوجل بترقية دردشة جميني الخاصة بها باستخدام نموذج جديد للذكاء الاصطناعي لتحرير الصور، مما يمنح المستخدمين تحكمًا أكبر في تعديل الصور، وهو خطوة تهدف إلى اللحاق بأدوات الصور الشهيرة من OpenAI وجذب المستخدمين من ChatGPT.
التحديث، الذي يُطلق عليه اسم Gemini 2.5 Flash Image، سيتم طرحه اعتبارًا من يوم الثلاثاء لجميع المستخدمين في تطبيق جميني، بالإضافة إلى المطورين عبر واجهة برمجة تطبيقات جميني، ومنصة جوجل للذكاء الاصطناعي، ومنصة Vertex AI.
نموذج الذكاء الاصطناعي الجديد لجمعيني مصمم لإجراء تعديلات أكثر دقة على الصور – بناءً على طلبات اللغة الطبيعية من المستخدمين – مع الحفاظ على تناسق الوجوه والحيوانات وغيرها من التفاصيل، وهو شيء تكافح معه معظم الأدوات المنافسة. على سبيل المثال، اطلب من ChatGPT أو Grok من xAI تغيير لون قميص شخص ما في صورة، وقد تتضمن النتيجة وجهًا مشوهًا أو خلفية معدلة.
لقد لاقت الأداة الجديدة من جوجل اهتمامًا بالفعل. في الأسابيع الأخيرة، أثنى مستخدمو وسائل التواصل الاجتماعي على أداة تحرير الصور بالذكاء الاصطناعي المدهشة في منصة التقييم المستندة إلى الجماهير، LMArena. ظهر النموذج للمستخدمين بشكل مجهول تحت الاسم المستعار “nano-banana”.
تقول جوجل إنها وراء هذا النموذج (إذا لم يكن واضحًا بالفعل من جميع التلميحات المتعلقة بالموز)، والذي هو بالفعل القدرة الأصلية على معالجة الصور ضمن نموذجها الرائد Gemini 2.5 Flash AI. وتقول جوجل إن نموذج الصور متفوق على LMArena ومعايير أخرى.
قالت نيكول بريختوفا، رئيسة المنتجات في نماذج التوليد المرئي في Google DeepMind، في مقابلة مع TechCrunch: “نحن ندفع جودة التصوير إلى الأمام، وكذلك قدرة النموذج على اتباع التعليمات.”
وأضافت بريختوفا: “يعمل هذا التحديث بشكل أفضل بكثير لجعل التعديلات أكثر سلاسة، والنماذج التي يتم إخراجها قابلة للاستخدام لأي شيء تريد استخدامه من أجله.”
أصبحت نماذج الصورة بالذكاء الاصطناعي ساحة معركة حاسمة للقطاع التكنولوجي الكبير. عندما أطلقت OpenAI مولّد الصور الأصلي لـ GPT-4o في مارس، أدى ذلك إلى زيادة استخدام ChatGPT بشكل ملحوظ، وذلك بفضل جنون الميمات المنتجة بواسطة الذكاء الاصطناعي المستندة إلى Studio Ghibli، والتي، وفقًا لمدير OpenAI سام ألتمان، جعلت وحدات معالجة الرسومات لديهم “تذوب”.
لمواكبة OpenAI وجوجل، أعلنت ميتا الأسبوع الماضي أنها ستقوم بترخيص نماذج الصور بالذكاء الاصطناعي من شركة Midjourney الناشئة. وفي الوقت نفسه، تواصل شركة Black Forest Labs، المدعومة من a16z، الهيمنة على المعايير باستخدام نماذج الصور بالذكاء الاصطناعي FLUX.
ربما يتمكن محرر الصور الرائع في Gemini من مساعدة جوجل في تقليص الفجوة بين مستخدميها وOpenAI. حاليًا، يسجل ChatGPT أكثر من 700 مليون مستخدم أسبوعيًا. خلال مكالمة أرباح جوجل في يوليو، كشف الرئيس التنفيذي للشركة سوندار بيتشاي أن Gemini لديها 450 مليون مستخدم شهري — مما يعني أن العدد الأسبوعي أقل من ذلك.
تقول بريختوفا إن جوجل قامت بتصميم نموذج الصور خصيصًا لتلبية احتياجات المستخدمين، مثل مساعدة المستخدمين في تصور مشاريع منازلهم وحدائقهم. للنموذج أيضًا “معرفة عالمية” أفضل ويمكنه دمج مراجع متعددة في زيادة واحدة؛ على سبيل المثال، دمج صورة لكرسي، وصورة لغرفة معيشة، ولوحة ألوان في عرض متماسك واحد.
بينما يجعل مولّد الصور الجديد في Gemini من السهل على المستخدمين إنشاء وتعديل الصور الواقعية، إلا أن الشركة لديها تدابير أمنية تحد من ما يمكن للمستخدمين إنشاؤه. لقد واجهت جوجل صعوبات مع تدابير أمان مولّد الصور بالذكاء الاصطناعي في السابق. في مرحلة ما، اعتذر الشركة عن إنتاج Gemini صورًا غير دقيقة تاريخيًا للأشخاص، وتراجعت عن مولّد الصور بالذكاء الاصطناعي تمامًا.
الآن، تشعر جوجل أنها حققت توازنًا أفضل.
قالت بريختوفا: “نريد أن نعطي المستخدمين السيطرة الإبداعية حتى يحصلوا على ما يريدون من النماذج.” وأضافت: “لكن ليس كما لو أن كل شيء مسموح به.”
يمنع قسم الذكاء الاصطناعي في شروط خدمة جوجل المستخدمين من إنشاء “صور غير متفق عليها في الحالات الحميمة.” هذه الأنواع من التدابير الأمنية لا تبدو أنها موجودة لـ Grok، الذي سمح للمستخدمين بإنشاء صور صريحة بالذكاء الاصطناعي تشبه المشاهير مثل تايلور سويفت.
لمعالجة انتشار صور الـ deepfake، التي قد تجعل من الصعب على المستخدمين تمييز ما هو حقيقي على الإنترنت، تقول بريختوفا إن جوجل تطبق علامات مائية بصرية على الصور المولدة بالذكاء الاصطناعي، بالإضافة إلى تعريفات في بياناتها الوصفية. ومع ذلك، قد لا يبحث شخص ما يتصفح صورة على وسائل التواصل الاجتماعي عن مثل هذه التعريفات.