نموذج “جيس” في الإمارات.. ما هو هدف الذكاء الاصطناعي باللغة العربية؟
شهدت مدينة دبي في الإمارات العربية المتحدة (CNN) ظهور روبوت الدردشة “تشات جي بي تي” (ChatGPT) ومنصات مماثلة، مما أثار جدلاً حول مجال الذكاء الاصطناعي الذي يعتمد على تدريبها على مجموعات واسعة من البيانات الموجودة على الإنترنت للرد على الأوامر النصية.
وعلى الرغم من الاهتمام المتزايد بالذكاء الاصطناعي في منطقة الشرق الأوسط، إلا أن نماذج اللغة العربية لا تزال تتخلف.
ومؤخرًا، كشف فريق من الأكاديميين والباحثين والمهندسين في دولة الإمارات العربية المتحدة عن أداة قوية مصممة خصيصًا للمتحدثين باللغة العربية حول العالم، ويقول مبتكروها إنها قد تمهد الطريق لنموذج لغوي كبير (أنظمة LLM) في لغات أخرى التي تعاني من “تمثيل ضعيف في مجال الذكاء الاصطناعي الحالي”.
وأُطلق على الأداة اسم “جيس” تيمنًا باسم أكبر جبل في دولة الإمارات، وتم إنشاؤها بالتعاون بين جامعة محمد بن زايد للذكاء الاصطناعي (MBZUAI) في أبوظبي، وشركة “Cerebras Systems”، ومقرّها “سيليكون فالي”، و”Inception” التابعة لشركة “G42” للذكاء الصناعي، ومقرها الإمارات.
ورغم أنّ “ChatGPT”، و”LLaMA” التابعة لشركة “ميتا”، وغيرها من أنظمة “LLM” تتمتع بقدرات لغوية عربية، إلا أنّها مُدرَّبة في الغالب على بيانات باللغة الإنجليزية على الإنترنت، وفقًا لما ذكره تيموثي بالدوين، عميد الجامعة بالإنابة، وأستاذ معالجة اللغات الطبيعية في جامعة محمد بن زايد للذكاء الاصطناعي.
وبدلاً من ذلك، استخدمت أداة “جيس” مجموعات البيانات باللغتين الإنجليزية والعربية، مع التركيز على المحتوى القادم من الشرق الأوسط، ما سمح لها بالذهاب لأبعد “ممّا تمكّن أي شخص آخر من تحقيقه باللغة العربية”، بحسب ما أوضحه بالدوين.
وتُهيمن اللغات التي تستخدم الحروف اللاتينية على الإنترنت، واللغة الإنجليزية هي الأكثر استخدامًا حتّى الآن.
وعلى الرغم من أن “ChatGPT” و”LLaMA” وغيرها من أنظمة “LLM” التابعة لشركة “ميتا” تمتلك قدرات لغوية عربية، إلا أنها عمومًا تدربت بشكل رئيسي على بيانات باللغة الإنجليزية الموجودة على الإنترنت، وفقًا لما ذكره تيموثي بالدوين، العميد المؤقت للجامعة وأستاذ معالجة اللغات الطبيعية في جامعة محمد بن زايد للذكاء الاصطناعي.
وبدلاً من ذلك، استخدمت أداة “جيس” مجموعات بيانات باللغتين الإنجليزية والعربية، مع التركيز على المحتوى القادم من منطقة الشرق الأوسط، مما سمح لها بالتوسع “فوق ما يمكن لأي شخص آخر تحقيقه باللغة العربية”، وفقًا لتصريحات بالدوين.
وتسود اللغات التي تستخدم الأحرف اللاتينية على الإنترنت، وتظل اللغة الإنجليزية هي الأكثر استخدامًا حتى الآن.
صرح مدير التكنولوجيا الاستراتيجية وبرامج الأمن السيبراني في معهد الشرق الأوسط بواشنطن، محمد سليمان، بأن ذلك يعني أن مجموعات البيانات تكون أكبر بهذه اللغات.
وأشار سليمان في حوار مع شبكة سي إن إن إلى أن “تقييد الوصول إلى أدوات الذكاء الاصطناعي للأشخاص الذين يجيدون لغات محددة قد يمنع فئة كبيرة من المجتمعات المحرومة من الاستفادة من فوائد التقنيات الذكية”.
علاوة على ذلك، تحتوي النماذج اللغوية المدربة باللغة الإنجليزية عادةً على مجموعات من البيانات المتركزة حول الثقافة الغربية. وأوضح سليمان أن هذه النماذج اللغوية تعاني من نقص الوعي بالثقافات الأخرى، مما ينعكس سلبًا على تجربة المستخدمين الذين ينتمون إلى خلفيات متنوعة.
وبفضل التدريب الذي تمتعت به، تفهم “جيس” الفروقات الثقافية، واللهجات، وفقًا لما أشارت إليه جامعة محمد بن زايد للذكاء الاصطناعي، ويتيح ذلك استخدامها على نطاق أوسع في مختلف الصناعات.
وفي الإصدارات المستقبلية، يهدف الفريق إلى جعل “جيس” تعمل مع الصور، أو الرسوم البيانية، أو جداول البيانات بدلاً من النصوص فقط، وسيؤدي ذلك إلى توسيع نطاق استخداماتها، وربما تمكينها من تفسير المسوحات الطبية، أو البيانات الاستثمارية، أو البيانات الواردة من الأقمار الصناعية.
اللهجات المختلفة
وذكر بالدوين أنّ اللغة العربية هي اللغة السادسة الأكثر استخدامًا في العالم، وهي غنية بـ “مجموعة” من اللهجات المختلفة، ما يزيد من تعقيد تدريب نموذج اللغة. وتُستخدم اللغة العربية الفصحى الحديثة عادةً في الوثائق والكتابات الرسمية، ولكن غالبًا ما تُستخدم اللهجات المحلية في المدونات، أو وسائل التواصل الاجتماعي. وخلال تدريبها على مجموعة متنوعة من البيانات، أشار بالدوين إلى تمكّن “جيس” من التنقل بين اللهجات المختلفة.
وأفاد بالدوين: “هناك فرصة للتحسين بالتأكيد، وتم التركيز بشكل أكبر على القوة، أي القدرة على فهم مدى توفر مزيد من المدخلات غير الرسمية للنموذج”.
ويسمح التحديث الأخير لـ “Bard” من Google أيضًا بفهم الأسئلة في أكثر من 12 لهجة عربية، بما في ذلك اللغة العامية المصرية والسعودية، ثم يتم الرد باللغة العربية الفصحى الحديثة.
وأشار بالدوين إلى أن “جيس” تحتوي على 13 مليار متغير، ويجري العمل حاليًا على تحديث 30 مليار متغير.
وتحدد المتغيرات حجم نموذج اللغة، ولكن ليس بالضرورة دقتها.
وتتمتع منصة “ChatGPT-3.5” بحوالي 175 مليار متغير، وفقًا للمعلومات المذكورة من قِبَل “OpenAI”.
وأشار بالدوين إلى أن “جيس” تستخدم ضبط التعليمات لمنعها من إنتاج إجابات “ضارة” أو “سامة” تشبه نماذج الذكاء الاصطناعي الأخرى التي تُنشئ نصوصًا.
ولن تُنشئ الأداة أي شيء يمكن أن يتسبب في إيذاء الذات أو ضرر الآخرين أو يشير إلى التعود.
وتلتزم الإجابات التي تنشئها بالقوانين والعادات المحلية المتعلقة بمواضيع مثل المثلية الجنسية والمخدرات.
وقامت جامعة محمد بن زايد للذكاء الاصطناعي بإجراء “حوارات متنوعة” مع حكومة الإمارات ومؤسسات أخرى حول المسؤولية في مجال الذكاء الاصطناعي، وتم اعتبار هذه الجوانب أثناء تطوير “جيس”، وفقًا لما صرح به بالدوين.
التطورات الإقليمية
شهدت دولة الإمارات العربية المتحدة جهودًا متزايدة لتطوير نماذج توليدية للذكاء الاصطناعي.
وكانت الإمارات أول دولة في العالم تعين وزيرًا للذكاء الاصطناعي في عام 2017.
وفي مارس/آذار، كشف مجلس أبحاث التكنولوجيا المتطورة في أبوظبي ومعهد الابتكار التكنولوجي (TII) عن أكبر نموذج للذكاء الاصطناعي في المنطقة، وهو “فالكون”، مع إصدار نسخة جديدة في سبتمبر/أيلول.
وعلى الرغم من عدم توفرها حاليًا باللغة العربية، إلا أن “فالكون” يعتبر أقوى من “جيس” باللغة الإنجليزية، حيث يحتوي على حوالي 180 مليار متغير، ويتفوق على منافسيه مثل “LLaMA 2” الذي تطوّره شركة “ميتا”، من حيث قدراته المنطقية والبرمجية واختبارات المعرفة الشاملة، وفقًا لما ذكره معهد الابتكار التكنولوجي.
بالمقابل، على عكس “Bard” من Google و”ChatGPT”، يتمتع كلٌ من “فالكون” و”جيس” بمصدر مفتوح، وهذا يعني أن المتغيرات الخاصة بهما متاحة للاستخدام والتعديل من قِبَل أي شخص.
ووفقًا لتقرير صادر عن شركة “PwC” الاستشارية في عام 2018، يُقدر أن الشرق الأوسط قد يحقق فوائد تصل قيمتها إلى 320 مليار دولار من الذكاء الاصطناعي بحلول عام 2030.
أوضح علي حسيني، المدير الرقمي لشركة “PwC” في الشرق الأوسط، أن المنطقة تسعى للتأكد من امتلاكها “قدرات خاصة” في مجال الذكاء الاصطناعي.
وبالنسبة لـ “فالكون” و”جيس”، صرح حسيني قائلاً: “تم تطوير بعض أفضل النماذج ذات المصدر المفتوح في منطقتنا بالفعل”.
وتطمح فرق تطوير “جيس” لتعزيز تطور الذكاء الاصطناعي التوليدي في الشرق الأوسط.
أكد بالدوين قائلاً: “هذه هي الخطوة الأولى من بين العديد من الخطوات المستقبلية بشكل ما”، مضيفًا: “ليس فقط فيما يتعلق بالنماذج الكبيرة للغات العربية، ولكن أيضًا في مجالات أخرى”.