Computex26: إطلاق Cosmos 3 من NVIDIA كنموذج ذكاء اصطناعي مفتوح المصدر
أُعلن عن إطلاق نموذج Cosmos 3 خلال فعاليات مؤتمر الحوسبة العالمي المقام في تايبيه ضمن معرض Computex 2026. يمثل هذا النموذج توسعاً في مجال الذكاء الاصطناعي المخصص للتعامل مع البيئات المادية والأنظمة الروبوتية، مع الإعلان أيضاً عن تحالف عالمي جديد يحمل اسم Cosmos Coalition.
يُعد Cosmos 3 نموذجاً مفتوح المصدر للذكاء الاصطناعي الفيزيائي يجمع بين معالجة النصوص والصور والفيديو والأفعال داخل نموذج موحد. يتوفر النموذج بنسختين للأجهزة الطرفية ومراكز البيانات، مع إطلاق تحالف لدعم تطوير نماذج العالم المفتوحة.
يمثل Cosmos 3 جيلاً جديداً من نماذج الذكاء الاصطناعي التي تركز على ما يعرف بالذكاء الاصطناعي الفيزيائي، والذي يسعى إلى تمكين الآلات والروبوتات من فهم العالم الحقيقي والتفاعل معه بصورة أكثر دقة. يختلف هذا النوع من النماذج عن أنظمة الذكاء الاصطناعي التقليدية التي تعتمد بصورة رئيسية على معالجة اللغة أو الصور؛ إذ يتعامل مع سيناريوهات تتطلب فهم الحركة والتغيرات المتوقعة في البيئة المحيطة واتخاذ قرارات مناسبة بناءً على تلك التوقعات.
يهدف نموذج Cosmos 3 إلى معالجة واحدة من أكثر المشكلات تعقيدًا في مجال الذكاء الاصطناعي، وهي القدرة على التنبؤ بما سيحدث في العالم الحقيقي خلال اللحظات التالية. فعند استخدام روبوت لالتقاط جسم معين، يحتاج النظام إلى توقع كيفية تحرك ذلك الجسم عند ملامسته. وكذلك تحتاج المركبات الذاتية القيادة إلى تقدير سلوك المشاة والعناصر المتحركة المحيطة بها قبل اتخاذ أي قرار.
يعتمد النموذج الجديد على بنية تقنية وصفتها الشركة باسم مزيج المحولات، وهي بنية تسمح بمعالجة أنواع متعددة من البيانات في الوقت نفسه. تشمل هذه البيانات الصور ومقاطع الفيديو والتعليمات النصية والمعلومات القادمة من الحساسات المختلفة، ثم استخدام هذه المدخلات لتوقع الحالات المستقبلية المحتملة للعالم المحيط وتقديم اقتراحات مباشرة للإجراءات المناسبة.
يستطيع النظام محاكاة ما قد يبدو عليه المشهد بعد فترة زمنية قصيرة ثم الاستفادة من هذه المحاكاة لاتخاذ قرارات تشغيلية. يُعد هذا النهج مهمًا في تطبيقات الروبوتات الصناعية والأنظمة الذاتية التشغيل وغيرها من المجالات التي تعتمد على التفاعل المستمر مع البيئة الواقعية.
تتمثل إحدى أبرز خصائص Cosmos 3 في قدرته على التعامل مع عدة أنواع من المحتوى داخل نموذج واحد. ففي حين اعتمدت العديد من الأنظمة السابقة على نماذج منفصلة لمعالجة الصور واللغة والتنبؤ بالحركة، يجمع Cosmos 3 بين هذه المهام ضمن إطار موحد.
يدعم النموذج معالجة النصوص والصور والفيديو والصوت البيئي إضافة إلى بيانات الأفعال والحركات. أوضحت الشركة أن هذا التكامل يساعد الأنظمة الذكية على فهم التعليمات المنطوقة أو المكتوبة، وتحليل المشهد المرئي المحيط، ومتابعة المؤثرات الصوتية، ثم إصدار أوامر تشغيلية مناسبة خلال دورة معالجة واحدة.
أشارت الشركة إلى أن هذه المقاربة تساهم في تقليل التعقيد المرتبط بدمج عدة نماذج مختلفة داخل منظومة واحدة، كما تتيح تحسين سرعة الاستجابة في التطبيقات العملية.
أُطلقت نسختين من النموذج. تحمل الأولى اسم Cosmos 3 Nano، وهي نسخة أصغر حجمًا تستهدف الأجهزة الطرفية والأنظمة التي تحتاج إلى كفاءة تشغيل مرتفعة مع استهلاك محدود للموارد. أما النسخة الثانية فتحمل اسم Cosmos 3 Super، وهي موجهة إلى مراكز البيانات وعمليات التدريب والمحاكاة واسعة النطاق التي تتطلب قدرات حوسبية أكبر.
أصبح النموذج متاحاً عبر منصة Hugging Face، في حين نُشرت أدوات التطوير والبيانات والبرمجيات المصاحبة عبر منصة GitHub، ما يسمح للباحثين والشركات بالوصول إلى المكونات الأساسية للمشروع. أُعلن عن تأسيس تحالف Cosmos Coalition الذي يضم مجموعة من الشركات العاملة في مجالات الذكاء الاصطناعي والروبوتات وتوليد المحتوى الرقمي.
تشمل قائمة الأعضاء المؤسسين شركات متخصصة مثل Agile Robots و Black Forest Labs و Runway و Skild AI إلى جانب جهات أخرى. يهدف التحالف إلى دعم تطوير ما يعرف بنماذج العالم المفتوحة، وهي النماذج التي تسعى إلى تمثيل البيئة الواقعية وفهم قوانينها وسلوك عناصرها بصورة أكثر شمولًا.
في جانب الأداء، أوضح أن Cosmos 3 حقق نتائج متقدمة في عدد من اختبارات تحويل النصوص إلى صور وتحويل الصور إلى فيديو. كما كشف عن تبني عدد من المؤسسات الصناعية والتقنية للنموذج الجديد، من بينها شركات كبرى تعمل في مجالات الإلكترونيات والسيارات والروبوتات.



إرسال التعليق