إلذير AI تطلق مجموعة بيانات ضخمة لتدريب الذكاء الاصطناعي تحتوي على نصوص مرخصة ومفتوحة المجال

Written by

in

أصدرت شركة EleutherAI، وهي منظمة بحثية في مجال الذكاء الاصطناعي، ما تدعي أنه واحدة من أكبر مجموعات النصوص المرخصة والمفتوحة المجال لتدريب نماذج الذكاء الاصطناعي.

تسمى مجموعة البيانات The Common Pile v0.1، وقد استغرق إنجازها حوالي عامين بالتعاون مع الشركات الناشئة في مجال الذكاء الاصطناعي مثل Poolside وHugging Face وغيرها، إلى جانب العديد من المؤسسات الأكاديمية. بحجم يبلغ 8 تيرابايت، تم استخدام The Common Pile v0.1 لتدريب نموذجين جديدين من EleutherAI، وهما Comma v0.1-1T وComma v0.1-2T، التي تزعم EleutherAI أنها تؤدي بمستوى مماثل للنماذج التي تم تطويرها باستخدام بيانات محمية بحقوق الطبع والنشر.

تواجه شركات الذكاء الاصطناعي، بما في ذلك OpenAI، دعاوى قضائية بشأن ممارسات تدريبها للذكاء الاصطناعي، التي تعتمد على جمع المعلومات من الإنترنت — بما في ذلك المواد المحمية بحقوق الطبع والنشر مثل الكتب والمجلات البحثية — لبناء مجموعات بيانات تدريب النموذج. بينما لدى بعض شركات الذكاء الاصطناعي ترتيبات ترخيص مع بعض مقدمي المحتوى، فإن معظمها تظل مُصمِمة على أن العقيدة القانونية الأمريكية للاستخدام العادل تحميها من المسؤولية في الحالات التي تم التدريب فيها على أعمال محمية بحقوق الطبع والنشر دون إذن.

تدعي EleutherAI أن هذه الدعاوى القضائية قد “قللت بشكل كبير” من الشفافية لدى شركات الذكاء الاصطناعي، الأمر الذي تقول المنظمة إنه أدى إلى الإضرار بمجال البحث في الذكاء الاصطناعي بشكل أوسع، مما جعل من الصعب فهم كيفية عمل النماذج وما قد تكون عيوبها.

“لم تغير [الدعاوى القضائية المتعلقة بحقوق الطبع والنشر] بشكل ملموس ممارسات جمع البيانات في تدريب [النماذج]، لكنها قللت بشكل كبير من الشفافية التي تشارك فيها الشركات”، كتبت ستلا بيديرمان، المديرة التنفيذية لشركة EleutherAI، في منشور مدونة على Hugging Face مبكرًا يوم الجمعة. “كما أن الباحثين في بعض الشركات التي تحدثنا إليها أشاروا أيضًا بشكل محدد إلى الدعاوى القضائية كسبب لفشلهم في إصدار البحوث التي يقومون بها في مجالات تعتمد بشكل كبير على البيانات.”

يمكن تنزيل The Common Pile v0.1 من منصة تطوير الذكاء الاصطناعي من Hugging Face وGitHub، وقد تم إنشاؤها بالتشاور مع خبراء قانونيين، وتستند إلى مصادر، بما في ذلك 300000 كتاب من الملكية العامة تم تحويلها إلى صيغة رقمية بواسطة مكتبة الكونغرس وأرشيف الإنترنت. كما استخدمت EleutherAI نموذج Whisper، وهو نموذج تحويل الكلام إلى نص مفتوح المصدر من OpenAI، لنسخ المحتوى الصوتي.

تدعي EleutherAI أن Comma v0.1-1T وComma v0.1-2T هي دليل على أن The Common Pile v0.1 تم تنسيقها بدقة كافية لتمكين المطورين من بناء نماذج تنافس بدائل الملكية. وفقًا لـ EleutherAI، فإن النماذج، التي تتكون كلاهما من 7 مليارات معلمة وتم تدريبها فقط على جزء من The Common Pile v0.1، تتنافس مع نماذج مثل نموذج Llama AI الأول من Meta في معايير البرمجة وفهم الصور والرياضيات.

المعلمات، التي تشير إليها أحيانًا بالأوزان، هي المكونات الداخلية لنموذج الذكاء الاصطناعي التي توجه سلوكه وإجاباته.

“بشكل عام، نعتقد أن الفكرة الشائعة بأن النصوص غير المرخصة تعزز الأداء غير مبررة”، كتبت بيديرمان في منشورها. “مع زيادة كمية البيانات المتاحة المرخصة علنًا وبيانات الملكية العامة، يمكننا أن نتوقع تحسين جودة النماذج المدربة على المحتوى المرخص علنًا.”

يبدو أن The Common Pile v0.1 هي جزئيًا جهد لتصحيح أخطاء EleutherAI التاريخية. قبل سنوات، أصدرت الشركة The Pile، وهي مجموعة مفتوحة من نصوص التدريب التي تشمل مواد محمية بحقوق الطبع والنشر. تعرضت شركات الذكاء الاصطناعي لانتقادات — وضغوط قانونية — لاستخدامهم The Pile في تدريب النماذج.

تلتزم EleutherAI بإصدار مجموعات بيانات مفتوحة بشكل أكثر تكرارًا في المستقبل بالتعاون مع شركائها في البحث والبنية التحتية.

المصدر

إلذير AI تطلق مجموعة بيانات ضخمة لتدريب الذكاء الاصطناعي تحتوي على نصوص مرخصة ومفتوحة المجال

More posts

اخبار عدن – حملة شاملة لتنظيف شوارع المعلا والتواهي في العاصمة المؤقتة عدن

يوتيوب يوسع تقنيات كشف التزييف العميق بالذكاء الاصطناعي للسياسيين والمسؤولين الحكوميين والصحفيين

تمبكتي يفضل الاستمرار مع الهلال ويتجاهل فرصة الاحتراف في الدوري الأوروبي – كورة بريك – عرب فايف

عاجل: تراجع حاد للريال اليمني مقابل الدولار… 1573 ريال للبيع مساء الاثنين!