ما ذا سيحدث عند استنفاد بيانات التدريب في تطوير الذكاء الاصطناعي؟

 

ما ذا سيحدث عند استنفاد بيانات التدريب في تطوير الذكاء الاصطناعي؟


منذ ظهور نماذج ذكاء اصطناعي مثل Chat GPT وBARD وغيرها، تمكنت هذه النماذج من التعلم الذاتي والإبداع والابتكار بشكل يشبه البشر. ونتيجة لذلك، انتاب الجميع حالة من الخوف والترقب تجاه يوم قدوم الروبوتات لتسيطر على كوكب الأرض وتنهي وجود البشرية، كما رأينا في العديد من الأفلام.

ومع ذلك، يواجه الذكاء الاصطناعي الآن مشكلة كبيرة قد تعوق استمرار تعلمه الذاتي، مما يحول دون تطوره بشكل واضح، أو على الأقل يؤدي إلى تباطؤ ملحوظ في هذا التطور. رغم أن هذا التأخر قد يعتبر أمرًا إيجابيًا بالنسبة للأشخاص القلقين بشأن مصيرهم وقدرتهم على الاستمرار في وظائفهم التي تم استبدالها بالفعل بواسطة روبوتات الدردشة ذات الذكاء الفائق، إلا أنه لم يلق قبولًا لدى العلماء والمهتمين بمجال الذكاء الاصطناعي.

هذا التراجع في التطور قد يؤدي بشدة إلى تقلص الأرباح المتحققة من تطوير نماذج الذكاء الاصطناعي السابقة، مما يمكن أن يتسبب في خسائر كبيرة. ولذا، هناك جهود كبيرة للسيطرة على هذه المشكلة وضمان استمرار تعلم نماذج الذكاء الاصطناعي.

والآن، سنتعرف على ما يعيق هذا التطور في الأساس وما هي البدائل الممكنة لحل هذه المشكلة وضمان استمرار الهيمنة. تم تطوير نماذج اللغات الكبيرة LLMs، وهذا أدى إلى طفرة كبيرة في تغذية نماذج الذكاء الاصطناعي بالبيانات وفي مجال البرمجة عمومًا. وبعد أن كانت لغات البرمجة تقتصر على الرموز فقط، أصبحت الآلات القادرة على التعامل مع الكلمات والصور، مما زاد بشكل كبير قدرة الذكاء الاصطناعي على التعلم اللانهائي من جميع البيانات الموجودة على الإنترنت وتحويلها إلى معرفة جديدة بطرق غير مسبوقة.

بفضل البيانات الوافرة والتقدم في مجال البرمجة، تمكن الذكاء الاصطناعي من التعامل مع الكلمات والصور وتحويلها إلى معرفة جديدة بطرق غير مسبوقة. ومع ذلك، تواجهنا الآن مشكلة مهمة، وهي تراجع جودة البيانات الموثوقة على الإنترنت بالمقارنة مع غموض وعدم موثوقية منشورات وسائل التواصل الاجتماعي. هذا التحدي يهدد دقة نماذج الذكاء الاصطناعي في أداء المهام المعقدة، وخاصة في المجالات مثل الرعاية الصحية واتخاذ القرارات.

ووفقًا لبحث أجرته شركة Epoch، قد يصبح من الضروري في عام 2026 الحصول على مزيد من البيانات عالية الجودة لتدريب الذكاء الاصطناعي. في المقابل، قد يظل تدفق المنشورات غير الموثوقة مستمرًا لسنوات قادمة، وهذا بالتأكيد سيؤثر على التطور المستمر المتوقع في الذكاء الاصطناعي. يتوقع العلماء أن تتباطأ هذه الزيادة في التحسين التدريجي اللانهائي الذي كانوا يأملون فيه.

وبالتالي، فإن إيجاد حلول للتعامل مع تراجع جودة البيانات وزيادة مصداقيتها سيكون أمرًا حاسمًا للحفاظ على تقدم وتطور الذكاء الاصطناعي في المستقبل.

عند مقارنتنا بالإنسان، نحتاج عادة إلى أمثلة قليلة لنتعلم شيئًا جديدًا، ولكن هذا ليس الحال بالنسبة لنماذج الذكاء الاصطناعي حتى الآن. يعتمد تطورها بشكل أساسي على زيادة كمية البيانات التي يتم تدريبها عليها. ومع ذلك، لن تكون هذه الزيادة الضخمة وحدها كافية، خاصة في التخصصات الدقيقة. 

فعلى سبيل المثال، عند طلب تشخيص مرض نادر أو اكتشافه من نموذج الذكاء الاصطناعي، سيحتاج النموذج إلى البيانات العالية الجودة بالإضافة إلى الزيادة المستمرة في الكمية. هذا يشير إلى ضرورة تغيير نمط التعلم الذي يعتمده النموذج للمضي قدمًا في التطور.

ومن أبرز التحديات التي تواجه استمرار تعلم الذكاء الاصطناعي هو أن كلما زاد حجم النموذج، كلما انخفض تحسن أدائه ولم يواكب حجم الموارد المستخدمة في تزويده بالبيانات. فكلما زاد حجم النموذج، زادت الموارد الحسابية المطلوبة وزادت أوقات التدريب والهدر الطاقي والمالي، وذلك دون تحقيق فائدة واقعية في العالم الحقيقي.

وتشير التقديرات إلى أن زيادة حجم نماذج الذكاء الاصطناعي يؤدي إلى تراجع قدرتها على التكيف ومواجهة التحديات الصعبة. كلما زاد حجم النموذج، زادت فرصة تعرضه للمدخلات المعادية، وإذا لم يتم تحسين أدائه بشكل مستمر، فلن يكون قادرًا على التعامل مع تلك المدخلات.والمشكلة الثانية في زيادة حجم نماذج الذكاء الاصطناعي تتمثل في صعوبة التعميم، أي القدرة على التعامل مع بيانات جديدة غير معروفة أثناء التدريب. تركز نماذج الذكاء الاصطناعي على حفظ البيانات الضخمة بدلاً من التركيز على أنماط التعلم الأساسية، مما يؤدي تدريجياً إلى ضعف قدرتها على التنبؤ والتكيف مع المعطيات الجديدة.

توجد بعض الطرق البديلة المطروحة للتعامل مع هذه التحديات وضمان استمرار قدرة نماذج الذكاء الاصطناعي على التعلم. من بين هذه الطرق:

1. إعادة تغذية النماذج بنفس البيانات: يقترح البعض إعادة التفكير في تصنيف البيانات عالية الجودة والمنخفضة الجودة، وتقديم البيانات بطرق متنوعة لتعزيز نمط التعلم والتغلب على قيوده. ومع ذلك، يعد هذا الحل مؤقتًا وليس طويل الأمد، ويمكن أن يؤدي إلى تشويش النموذج بالمزيد من البيانات المكررة.

2. آلية JEPA أو تقسيم البيانات وتوزيع الاحتمالات: يقترح البعض تطبيق آلية JEPA التي تعتمد على تقسيم البيانات إلى مجموعات وتوزيع الاحتمالات. هذا النهج يهدف إلى تحسين قدرة النماذج على التعامل مع تنوع البيانات وتعزيز قدرتها على التعلم بشكل أكثر فعالية.

على الرغم من أن هذه الطرق قد تكون مفيدة في الوقت الحالي، إلا أنه لا يزال هناك حاجة إلى البحث والتطوير المستمر للوصول إلى حلول مستدامة تساعد على تجاوز تحديات تعلم الذكاء الاصطناعي وتمكينه من مواجهة تحديات التنبؤ والتعامل مع البيانات الجديدة بفاعلية.

تعليقات