الذكاء الاصطناعي هو عالم عميق ومعقد. العلماء الذين يعملون في هذا المجال غالبًا ما يعتمدون على المصطلحات الفنية واللغة المتخصصة لشرح ما يعملون عليه. نتيجة لذلك، نضطر كثيرًا لاستخدام هذه المصطلحات الفنية في تغطيتنا لصناعة الذكاء الاصطناعي. لهذا السبب، اعتقدنا أنه سيكون من المفيد إعداد مسرد يحتوي على تعريفات لبعض من أهم الكلمات والعبارات التي نستخدمها في مقالاتنا.
سنقوم بتحديث هذا المسرد بانتظام لإضافة مدخلات جديدة حيث يواصل الباحثون اكتشاف طرق جديدة لدفع حدود الذكاء الاصطناعي مع تحديد المخاطر الأمنية الناشئة.
الذكاء الاصطناعي العام، أو AGI، هو مصطلح مبهم. ولكن يشير عمومًا إلى الذكاء الاصطناعي الذي يكون أكثر قدرة من الإنسان المتوسط في العديد، إن لم يكن معظم، المهام. وصف الرئيس التنفيذي لـ OpenAI، سام التمان، مؤخرًا AGI بأنه “يعادل إنسانًا متوسطًا يمكنك توظيفه كزميل عمل.” في المقابل، تعرف ميثاق OpenAI AGI بأنه “أنظمة مستقلة للغاية تتفوق على البشر في معظم الأعمال ذات القيمة الاقتصادية العالية.” فهم Google DeepMind يختلف قليلًا عن هذين التعريفين؛ حيث تعتبر المختبر AGI “ذكاء اصطناعي يكون على الأقل بنفس قدرات البشر في معظم المهام الإدراكية.” هل تشعر بالارتباك؟ لا تقلق – فحتى الخبراء في مقدمة أبحاث الذكاء الاصطناعي كذلك.
يشير وكيل الذكاء الاصطناعي إلى أداة تستخدم تقنيات الذكاء الاصطناعي لأداء مجموعة من المهام نيابة عنك – تتجاوز ما يمكن أن يقوم به روبوت دردشة ذكاء اصطناعي أبسط – مثل تقديم النفقات، حجز التذاكر أو طاولة في مطعم، أو حتى كتابة وصيانة الكود. ومع ذلك، كما سبق أن أوضحنا، هناك الكثير من القطع المتحركة في هذا المجال الناشئ، لذا فإن “وكيل الذكاء الاصطناعي” قد يعني أشياء مختلفة لأشخاص مختلفين. كما أن البنية التحتية لا تزال تُبنى لتقديم إمكانياتها المتوقعة. لكن المفهوم الأساسي يعني نظامًا مستقلًا قد يستند إلى أنظمة ذكاء اصطناعي متعددة لأداء مهام متعددة الخطوات.
عند طرح سؤال بسيط، يمكن لدماغ الإنسان أن يجيب دون أن يفكر كثيرًا في الأمر – أشياء مثل “أي حيوان أطول، الزرافة أم القطة؟” لكن في العديد من الحالات، غالبًا ما تحتاج إلى قلم وورقة لتصل إلى الإجابة الصحيحة لأن هناك خطوات وسيطة. على سبيل المثال، إذا كان لدى مزارع دجاج وحيوانات، ومعًا لديهم 40 رأسًا و120 ساقًا، قد تحتاج إلى كتابة معادلة بسيطة لتصل إلى الإجابة (20 دجاجة و20 بقرة).
في سياق الذكاء الاصطناعي، يعني التفكير المتسلسل لنماذج اللغة الكبيرة تقسيم مشكلة إلى خطوات أصغر ووسيطة لتحسين جودة النتيجة النهائية. عادة ما يستغرق الأمر وقتًا أطول للحصول على الإجابة، لكن من المرجح أن تكون الإجابة صحيحة، خاصة في سياق المنطق أو البرمجة. يتم تطوير نماذج التفكير من النماذج الكبيرة التقليدية وتحسينها لتفكير المتسلسل بفضل التعلم المعزز.
(انظر: نموذج اللغة الكبيرة)
مجموعة فرعية من التعلم الآلي الذاتي التحسين حيث تم تصميم خوارزميات الذكاء الاصطناعي بتركيب شبكة عصبية اصطناعية متعددة الطبقات (ANN). يسمح لهم بإجراء ارتباطات أكثر تعقيدًا مقارنة بالأنظمة المعتمدة على التعلم الآلي الأبسط، مثل النماذج الخطية أو أشجار القرار. تستلهم بنية خوارزميات التعلم العميق من المسارات المتصلة للعصبونات في الدماغ البشري.
نماذج الذكاء الاصطناعي للتعلم العميق قادرة على التعرف على الخصائص المهمة في البيانات بنفسها، بدلاً من الحاجة إلى مهندسين بشريين لتعريف هذه الميزات. كما أن البنية تدعم الخوارزميات التي يمكنها التعلم من الأخطاء، ومن خلال عملية التكرار والتعديل، تحسين مخرجاتها الخاصة. ومع ذلك، تتطلب أنظمة التعلم العميق الكثير من نقاط البيانات لتحقيق نتائج جيدة (ملايين أو أكثر). عادة ما يستغرق تدريبها وقتًا أطول مقارنة بخوارزميات التعلم الآلي الأبسط – لذا تميل تكاليف التطوير إلى الارتفاع.
(انظر: الشبكة العصبية)
يُعتبر الانتشار التقنية في قلب العديد من نماذج الذكاء الاصطناعي المتولدة للفن والموسيقى والنصوص. مستوحاة من الفيزياء، تدمر أنظمة الانتشار ببطء هيكل البيانات – مثل الصور والأغاني وما إلى ذلك – عن طريق إضافة الضوضاء حتى لا يتبقى شيء. في الفيزياء، الانتشار عفوي ولا يمكن عكسه – السكر المنتشر في القهوة لا يمكن استعادته إلى شكل مكعب. لكن أنظمة الانتشار في الذكاء الاصطناعي تهدف إلى تعلم نوع من عملية “الانتشار العكسي” لاستعادة البيانات المدمرة، مكتسبة القدرة على استعادة البيانات من الضوضاء.
التقطير هو تقنية تستخدم لاستخراج المعرفة من نموذج ذكاء اصطناعي كبير باستخدام نموذج “المعلم-الطالب”. يرسل المطورون طلبات إلى نموذج المعلم ويسجلون المخرجات. تتم مقارنة الإجابات في بعض الأحيان مع مجموعة بيانات لمعرفة مدى دقتها. تُستخدم هذه المخرجات بعد ذلك لتدريب نموذج الطالب، الذي يتم تدريبه ليقارب سلوك المعلم.
يمكن استخدام التقطير لإنشاء نموذج أصغر وأكثر كفاءة بناءً على نموذج أكبر مع الحد الأدنى من خسائر التقطير. من المحتمل أن يكون هذا هو الكيفية التي طورت بها OpenAI GPT-4 Turbo، نسخة أسرع من GPT-4.
بينما تستخدم جميع شركات الذكاء الاصطناعي التقطير داخليًا، قد يكون قد تم استخدامه أيضًا من قبل بعض شركات الذكاء الاصطناعي للحاق بالنماذج الرائجة. عادة ما ينتهك التقطير من منافس شروط خدمة واجهة برمجة التطبيقات ومساعدات الدردشة في الذكاء الاصطناعي.
تشير هذه العبارة إلى تدريب إضافي لنموذج الذكاء الاصطناعي لتحسين الأداء لمهمة أو مجال أكثر تحديدًا مما كان محور التركيز في تدريبه السابق – عادة عن طريق تغذيته ببيانات جديدة ومتخصصة (أي، موجهة نحو المهمة).
تقوم العديد من الشركات الناشئة في مجال الذكاء الاصطناعي بتناول نماذج اللغة الكبيرة كنقطة انطلاق لبناء منتج تجاري لكنها تسعى إلى زيادة الفائدة لقطاع أو مهمة محددة من خلال تعزيز دورات التدريب السابقة بتعديل دقيق بناءً على معرفتها وخبرتها المحددة في المجال.
(انظر: نموذج اللغة الكبيرة [LLM])
شبكة GAN، أو الشبكة التنافسية التوليدية، هي نوع من إطار تعلم الآلة التي تدعم بعض التطورات المهمة في الذكاء الاصطناعي التوليدي عندما يتعلق الأمر بإنتاج بيانات واقعية – بما في ذلك (لكن ليس فقط) أدوات التزييف العميق. تشمل شبكات GAN استخدام زوج من الشبكات العصبية، واحدة منها تعتمد على بيانات تدريبها لإنتاج مخرجات يتم تمريرها إلى النموذج الآخر للتقييم. لذلك، يلعب هذا النموذج الثاني، النموذج المميز، دور المصنف على مخرجات المولد – مما يمكّنه من التحسين على مر الزمن.
تم إعداد هيكل GAN كمسابقة (ومن هنا جاءت كلمة “تنافسية”) – حيث تم برمجة النموذجين في الأساس لمحاولة التفوق على بعضهما البعض: حيث يحاول المولد دفع مخرجاته إلى ما بعد المميز، بينما يعمل المميز على اكتشاف البيانات المُنتَجة بشكل مصطنع. يمكن أن تُحسن هذه المنافسة المنظمة مخرجات الذكاء الاصطناعي لتكون أكثر واقعية دون الحاجة إلى تدخّل بشري إضافي. على الرغم من أن GANs تعمل بشكل أفضل في التطبيقات المحدودة (مثل إنتاج صور أو مقاطع فيديو واقعية)، بدلاً من الذكاء الاصطناعي العام.
الهَلوسة هو المصطلح المفضل في صناعة الذكاء الاصطناعي لوصف نماذج الذكاء الاصطناعي التي تنشئ معلومات زائفة – حرفيًا توليد معلومات غير صحيحة. من الواضح أن هذه مشكلة كبيرة لجودة الذكاء الاصطناعي.
تنتج الهَلوسات مخرجات GenAI قد تكون مضللة وقد تؤدي حتى إلى مخاطر حقيقية – مع عواقب خطيرة محتملة (فكر في استفسار صحي يعود بنصائح طبية ضارة). لهذا السبب، يحذر معظم أدوات GenAI في طُبعاتها الصغيرة المستخدمين من التحقق من الإجابات التي ينتجها الذكاء الاصطناعي، رغم أن هذه التحذيرات عادة ما تكون أقل وضوحًا من المعلومات التي تقدمها الأدوات لمسة زر.
يعتقد أن مشكلة تصنيع المعلومات من قبل الذكاء الاصطناعي تنشأ كنتيجة للثغرات في بيانات التدريب. بالنسبة للذكاء الاصطناعي الشامل – المعروف أحيانًا أيضًا بنماذج الأساس – تبدو هذه المشكلة صعبة الحل. فليس هناك بيانات كافية موجودة لتدريب نماذج الذكاء الاصطناعي لحل جميع الأسئلة التي قد نطرحها. TL;DR: لم نخترع الإله (بعد).
تساهم الهَلوسات في دفع نحو نماذج ذكاء اصطناعي متخصصة ومتوازية بشكل متزايد – أي الذكاءات الاصطناعية المحددة للمجالات التي تتطلب خبرات أكثر ضيقًا – كوسيلة لتقليل احتمالية وجود ثغرات مع知识 وتقليص مخاطر المعلومات المضللة.
الاستنتاج هو عملية تشغيل نموذج الذكاء الاصطناعي. إنما هو إطلاق نموذج للتنبؤ أو استنتاج استنتاجات من البيانات التي تم رؤيتها مسبقًا. لتوضيح الأمر، لا يمكن أن يحدث الاستنتاج بدون تدريب؛ يجب على النموذج تعلم أنماط في مجموعة من البيانات قبل أن يتمكن من الاستقراء بفعالية من بيانات التدريب هذه.
يمكن للعديد من أنواع الأجهزة تنفيذ الاستنتاج، بدءًا من معالجات الهواتف الذكية إلى وحدات معالجة الرسوميات القوية إلى المسرعات المخصصة للذكاء الاصطناعي. لكن ليس بإمكان جميعها تشغيل النماذج بشكل متساوٍ. ستستغرق النماذج الكبيرة جدًا وقتًا طويلاً لتقديم تنبؤات على، لنقل، حاسوب محمول بالمقارنة مع خادم سحابي مزود بشريحة ذكاء اصطناعي عالية الأداء.
[انظر: التدريب]
نموذج اللغة الكبيرة، أو LLMs، هي نماذج الذكاء الاصطناعي التي يستخدمها المساعدون الافتراضيون الشائعون، مثل ChatGPT، Claude، Gemini من Google، AI Llama من Meta، Microsoft Copilot، أو Mistral’s Le Chat. عندما تتحدث مع مساعد ذكاء اصطناعي، تتفاعل مع نموذج لغة كبير يعالج طلبك مباشرة أو بمساعدة أدوات مختلفة متاحة، مثل تصفح الويب أو المفسرين الشفريين.
يمكن أن يكون للمساعدين الذكاء الاصطناعي وLLMs أسماء مختلفة. على سبيل المثال، GPT هو نموذج اللغة الكبير من OpenAI وChatGPT هو منتج مساعد الذكاء الاصطناعي.
تُعتبر LLMs شبكات عصبية عميقة تتكون من مليارات المعلمات العددية (أو الأوزان، انظر أدناه) التي تتعلم العلاقات بين الكلمات والعبارات وتخلق تمثيلًا للغة، نوع من الخرائط متعددة الأبعاد للكلمات.
تُنشأ هذه النماذج من خلال ترميز الأنماط التي تجدها في مليارات من الكتب والمقالات والنصوص. عندما يعطي المستخدم تعليمات لـ LLM، يقوم النموذج بتوليد أكثر نمط احتمالًا يتناسب مع التعليمات. ثم يقوم بتقييم الكلمة التالية الأكثر احتمالا بعد الأخيرة، اعتمادًا على ما تم قوله سابقًا. كرر، كرر، وكرر.
(انظر: الشبكة العصبية)
تشير الشبكة العصبية إلى الهيكل الخوارزمي متعدد الطبقات الذي يدعم التعلم العميق – وأيضًا، بشكل أوسع، كل ازدهار أدوات الذكاء الاصطناعي التوليدية بعد ظهور نماذج اللغة الكبيرة.
على الرغم من أن فكرة استيحاء من المسارات المترابطة بكثافة في الدماغ البشري كهيكل تصميم لو خوارزميات معالجة البيانات تعود إلى الأربعينيات، إلا أن الازدهار الأحدث للأجهزة المعالجة الرسومية (GPUs) – من خلال صناعة ألعاب الفيديو – هو ما أطلق حقًا قوة هذه النظرية. أثبتت هذه الشرائح أنها ملائمة جدًا لتدريب الخوارزميات ذات المزيد من الطبقات مقارنة بما كان ممكنًا في العصور السابقة – مما مكن أنظمة الذكاء الاصطناعي المعتمدة على الشبكات العصبية من تحقيق أداء أفضل بكثير عبر العديد من المجالات، بما في ذلك التعرف على الصوت، والتنقل المستقل، واكتشاف الأدوية.
(انظر: نموذج اللغة الكبيرة [LLM])
يتضمن تطوير الذكاء الاصطناعي القائم على التعلم الآلي عملية تُعرف بالتدريب. بكلمات بسيطة، يعني ذلك بيانات يتم إدخالها حتى يتمكن النموذج من التعلم من الأنماط وتوليد مخرجات مفيدة.
يمكن أن تصبح الأمور فلسفية بعض الشيء في هذه المرحلة من مجموعة الذكاء الاصطناعي – حيث إنه قبل التدريب، فإن الهيكل الرياضي الذي يُستخدم كنقطة بداية لتطوير نظام التعلم ليس سوى مجموعة من الطبقات وأرقام عشوائية. إنه فقط من خلال التدريب تتشكل نموذج الذكاء الاصطناعي بشكل حقيقي. أساسًا، هي عملية استجابة النظام للخصائص في البيانات التي تمكنه من تعديل المخرجات نحو هدف مرغوب – سواء كان ذلك التعرف على صور القطط أو إنتاج هايكو عند الطلب.
من المهم ملاحظة أن ليس كل ذكاء اصطناعي يتطلب تدريب. AIs المستندة إلى القواعد، التي تم برمجتها للامتثال لتعليمات محددة سلفًا يدويًا – على سبيل المثال، مثل روبوتات الدردشة الخطية – لا تحتاج إلى undergo training. ومع ذلك، من المحتمل أن تكون أنظمة الذكاء الاصطناعي هذه أكثر تقييدًا من الأنظمة التي تتعلم بنفسها (تدريب جيد).
على الرغم من ذلك، يمكن أن تكون تكلفة التدريب مرتفعة لأنها تتطلب الكثير من المدخلات – وعادة، تتجه أحجام المدخلات المطلوبة لمثل هذه النماذج نحو الارتفاع.
يمكن أحيانًا استخدام أساليب هجينة لتقصير تطوير النموذج والمساعدة في إدارة التكاليف. مثل إجراء تعديل دقيق يستند إلى البيانات لنموذج ذكاء اصطناعي يعتمد على القواعد – مما يعني أن التطوير يتطلب بيانات، ومعالجة، وطاقة، وتعقيد خوارزميات أقل مقارنةً بالبدء من الصفر.
[انظر: الاستنتاج]
تقنية حيث يتم استخدام نموذج ذكاء اصطناعي مُدرّب مسبقًا كنقطة بداية لتطوير نموذج جديد لمهمة مختلفة ولكن عادة ما تكون ذات صلة – مما يسمح بإعادة استخدام المعرفة المكتسبة في دورات التدريب السابقة.
يمكن أن يدفع التعلم الانتقالي لتحقيق كفاءة من خلال اختصار تطوير النموذج. كما يمكن أن يكون مفيدًا عندما تكون البيانات للمهمة التي يتم تطوير النموذج من أجلها محدودة بعض الشيء. ولكن من المهم ملاحظة أن هذه الطريقة لها قيود. من المحتمل أن النماذج التي تعتمد على التعلم الانتقالي لاكتساب قدرات عامة ستحتاج إلى تدريب على بيانات إضافية من أجل الأداء الجيد في مجال تركيزها.
(انظر: التعديل الدقيق)
الأوزان هي أساس تدريب الذكاء الاصطناعي، حيث تحدد مدى أهمية (أو وزن) الميزات المختلفة (أو المتغيرات المدخلة) في البيانات المستخدمة لتدريب النظام – مما يشكل مخرجات نموذج الذكاء الاصطناعي.
بعبارة أخرى، الأوزان هي معلمات عددية تحدد ما هو الأكثر بروزًا في مجموعة البيانات لمهمة التدريب المعطاة. تحقق وظيفتها من خلال تطبيق الضرب على المدخلات. يبدأ عادةً تدريب النموذج بأوزان يتم تعيينها عشوائيًا، ولكن مع تقدم العملية، يتم ضبط الأوزان بينما يسعى النموذج للوصول إلى مخرجات تتناسب بشكل أكبر مع الهدف.
على سبيل المثال، يمكن أن يتضمن نموذج الذكاء الاصطناعي للتنبؤ بأسعار المنازل المدرب على بيانات العقارات التاريخية لموقع مستهدف أوزانًا لميزات مثل عدد غرف النوم والحمامات، سواء كانت العقار مفصولاً أو شبه مفصول، ما إذا كانت تحتوي على مكان لوقوف السيارات، جراج، وما إلى ذلك.
في النهاية، تعكس الأوزان التي يعلقها النموذج على كل من هذه المدخلات مدى تأثيرها على قيمة الممتلكات، بناءً على مجموعة البيانات المعطاة.