الأسبوع الماضي، أصدرت المختبر الصيني DeepSeek نسخة محدثة من نموذج الذكاء الاصطناعي R1 الخاص بها والذي يقدم أداءً جيدًا في عدد من المعايير الرياضية والترميز. لم تكشف الشركة عن مصدر البيانات التي استخدمتها لتدريب النموذج، لكن بعض باحثي الذكاء الاصطناعي يظنون أن جزءًا من هذه البيانات قد يأتي من عائلة جيمناي (Gemini) التابعة لجوجل.
سام بايش، مطور مقيم في ملبورن يقوم بإنشاء تقييمات “ذكاء عاطفي” للذكاء الاصطناعي، نشر ما يدعي أنه دليل على أن النموذج الأخير من DeepSeek تم تدريبه على مخرجات من جيمناي. قال بايش في منشور له على X إن نموذج DeepSeek، المسمى R1-0528، يفضل الكلمات والتعبيرات المشابهة لتلك التي يفضلها نموذج جيمناي 2.5 برو.
إذا كنت تتساءل عن سبب اختلاف صوت deepseek R1 الجديد قليلاً، أعتقد أنهم ربما انتقلوا من التدريب على مخرجات OpenAI الاصطناعية إلى مخرجات جيمناي الاصطناعية. pic.twitter.com/Oex9roapNv— سام بايش (@sam_paech) 29 مايو 2025
لا يعد هذا دليلاً قاطعاً. لكن مطوراً آخر، وهو المنشئ المجهول لتقييم “حرية التعبير” للذكاء الاصطناعي المسمى SpeechMap، أشار إلى آثار نموذج DeepSeek — “الأفكار” التي ينتجها النموذج أثناء عمله نحو استنتاج — “تبدو مثل آثار جيمناي.”
لقد تم اتهام DeepSeek من قبل بتدريب نماذجها على بيانات من نماذج ذكاء اصطناعي منافسة. في ديسمبر، لاحظ المطورون أن نموذج V3 من DeepSeek غالبًا ما كان يعرف نفسه على أنه ChatGPT، منصة الدردشة المعتمدة على الذكاء الاصطناعي من OpenAI، مما يقترح أنه قد تم تدريبه على سجلات دردشات ChatGPT.
في وقت سابق من هذا العام، أخبرت OpenAI صحيفة Financial Times أنها وجدت أدلة تربط DeepSeek باستخدام تقنية التقطير، وهي تقنية لتدريب نماذج الذكاء الاصطناعي من خلال استخراج البيانات من نماذج أكبر وأكثر قدرة. وفقًا لموقع بلومبرغ، اكتشفت مايكروسوفت، وهي متعاون ومستثمر قريب من OpenAI، أن كميات كبيرة من البيانات كانت تُخرج عبر حسابات مطوري OpenAI في أواخر 2024 — وهي حسابات تعتقد OpenAI أنها مرتبطة بـ DeepSeek.
التقطير ليس ممارسة غير شائعة، لكن شروط خدمات OpenAI تمنع العملاء من استخدام مخرجات نموذج الشركة لإنشاء ذكاء اصطناعي منافس.
لتوضيح الأمر، العديد من النماذج تعرّف نفسها بشكل خاطئ وتتقارب في نفس الكلمات والتعبيرات. وذلك لأن الويب المفتوح، وهو المكان الذي تستخرج منه شركات الذكاء الاصطناعي الجزء الأكبر من بيانات تدريبه، أصبح ملوثًا بفوضى الذكاء الاصطناعي. تستخدم مزارع المحتوى الذكاء الاصطناعي لإنشاء محتوى مثير للضغط، وتغمر الروبوتات Reddit وX.
هذا “التلوث”، إذا جاز التعبير، جعل من الصعب للغاية تصفية مخرجات الذكاء الاصطناعي من مجموعات بيانات التدريب بشكل شامل.
ومع ذلك، فإن خبراء الذكاء الاصطناعي مثل ناثان لامبرت، باحث في المعهد غير الربحي للبحث في الذكاء الاصطناعي AI2، لا يعتقدون أنه من غير الممكن أن يكون DeepSeek قد تدرب على بيانات من جيمناي.
“إذا كنت في DeepSeek، سأقوم بالتأكيد بإنشاء كمية هائلة من البيانات الاصطناعية من أفضل نموذج API موجود”، كتب لامبرت في منشور على X. “[DeepSeek تعاني من نقص في وحدات معالجة الرسومات وتملك سيولة نقدية. إنه فعلاً بشكل فعال يعني مزيدًا من الحوسبة لهم].”
إذا كنت في DeepSeek سأقوم بالتأكيد بإنشاء كمية هائلة من البيانات الاصطناعية من أفضل نموذج API موجود. إنهم يعانون من نقص في وحدات معالجة الرسومات ويملكون سيولة نقدية. إنه فعلاً بشكل فعال يعني مزيدًا من الحوسبة لهم. نعم على سؤال التقطير من جيمناي.— ناثان لامبرت (@natolambert) 3 يونيو 2025
جزئيًا في جهود لمنع التقطير، بدأت شركات الذكاء الاصطناعي في زيادة تدابير الأمان.
في أبريل، بدأت OpenAI في مطالبة المؤسسات بإكمال عملية تحقق من الهوية للوصول إلى نماذج متقدمة معينة. تتطلب العملية هوية صادرة عن الحكومة من إحدى الدول المدعومة من API لشركة OpenAI؛ الصين ليست على القائمة.
في مكان آخر، بدأت جوجل مؤخرًا في “تلخيص” الآثار الناتجة عن النماذج المتاحة من خلال منصتها لمطوري الذكاء الاصطناعي، وهي خطوة تجعل من الصعب تدريب نماذج منافسة عالية الأداء بناءً على آثار جيمناي. قالت Anthropic في مايو إنها ستبدأ في تلخيص آثار نموذجها، مشيرة إلى الحاجة لحماية “مميزاتها التنافسية”.
لقد تواصلنا مع جوجل للحصول على تعليق وسنقوم بتحديث هذه المقالة إذا تلقينا ردًا.