نماذج الذكاء الاصطناعي تحاكي الإدراك البشري.. هل بدأ عصر الآلات الواعية؟
فهم آلية عمل الدماغ البشري وبناء آلات تستطيع محاكاة الإدراك والحدس يعد من أعمق طموحات البشرية. بينما قطعت نماذج الذكاء الاصطناعي شوطاً كبيراً في معالجة البيانات واللغة، ظلت لديها فجوة كبيرة في القدرة على فهم العالم المادي ببديهية، وهو أمر يكتسبه الأطفال الرضع بسهولة عبر الملاحظة. لكن الأبحاث الحديثة تشير إلى أن هذه الفجوة تضيق بسرعة، مع تطوير نماذج قادرة على إظهار الدهشة عندما تتغير قواعد الفيزياء أمامها. ويمثل نموذج (V-JEPA) خطوة مهمة نحو تزويد الذكاء الاصطناعي بفهم فطري للعالم، مما يعد بثورة في مجالات الروبوتات والمركبات الذاتية.
في خطوة علمية رائدة، تمكن باحثو شركة (ميتا) من تطوير نموذج للذكاء الاصطناعي يُظهر قدرة على فهم المبادئ الفيزيائية الأساسية للعلم، وهو ما يُعرف باسم (الحدس الفطري)، الذي يكتسبه الأطفال الرضع من خلال الملاحظة. يتمثل هذا الإنجاز في النموذج، الذي يُسمى (V-JEPA)، والذي يستطيع أن يتفاجأ عندما يواجه أحداثاً مستحيلة فيزيائياً، مثل اختفاء كائن دون سبب، محاكياً بذلك رد فعل الأطفال بعمر ستة أشهر تجاه ديمومة الكائن. ولا يعتمد نموذج (V-JEPA) على القواعد الفيزيائية المبرمجة سابقاً بل يتعلم من خلال مشاهدة ملايين الفيديوهات، تماماً كما تتعلم العقول البشرية عبر التجربة.
يستطيع النموذج، وفق اختبارات ميتا، التنبؤ بما سيحدث في الفيديوهات اعتماداً على (التمثيلات الكامنة)، وهي عبارة عن طبقات تجريدية تختصر آلاف البكسلات في معلومات جوهرية حول الأشياء وحركتها ومكانها. وإذا خالفت المشاهد المستقبلية توقعاته المنطقية، يظهر خطأ كبير في التنبؤ، يشبه شعور المفاجأة لدى الأطفال الرضّع. ولتوضيح الفرق بين نموذج (V-JEPA) والنماذج التقليدية، يُذكر أن مهندسو الذكاء الاصطناعي يواجهون تحدياً في تمكين الآلة من فهم العالم المرئي بموثوقية تضاهي الإدراك البشري. لقد اعتمدت الأنظمة المصممة لتحليل محتوى الفيديو لمدة طويلة على ما يُسمى (فضاء البكسل)، وفي هذا الفضاء، يُتعامل مع كل نقطة لونية (بكسل) في المشهد بوزن متساوٍ، مما يؤدي أحياناً إلى إغفال البيانات الأهم مثل لون إشارة المرور أو موقع السيارات.
يعاني هذا المنهج من نقطة عمياء إدراكية، لأن العمل في فضاء البكسل يعني التعامل مع كم ضخم من التفاصيل غير الضرورية التي تعوق الكفاءة والقدرة على اتخاذ قرارات سريعة. لمعالجة هذا القصور، طورت ميتا معمارية (Video Joint Embedding Predictive Architecture) – التي تُعرف اختصاراً باسم (V-JEPA) – بهدف محاكاة جزء أساسي من العملية الإدراكية البشرية، وهو التجريد الانتقائي. بينما تقوم النماذج التقليدية بحجب أجزاء من إطارات الفيديو وتدريب الشبكة على التنبؤ بقيمة البكسلات المفقودة، يتخذ نموذج (V-JEPA) مساراً مختلفاً جذرياً، إذ يستخدم عملية الحجب نفسها، ولكنه لا يتنبأ بما هو خلف القناع على مستوى البكسل، بل يتنبأ بالمحتوى بناءً على مستويات أعلى من التجريد.
يعتمد النموذج على مشفّر يحوّل الإطارات إلى مجموعة صغيرة من القيم الرقمية، التي تمثّل السمات الجوهرية التي تشمل: شكل الجسم، وأبعاده، وموقعه، وحركته، والعلاقات بين العناصر. وبدل آلاف البكسلات، يتعامل النظام مع جوهر المشهد فقط، تماماً كما يعالج الدماغ المدخلات البصرية بإهمال الضوضاء والتركيز على المعلومات المفيدة. يؤكد كوينتن جاريدو، عالم الأبحاث في (ميتا)، أن جوهر قوة هذا النموذج يكمن في قدرته على تصفية المعطيات، قائلاً: “تتيح هذه الآلية للنموذج إسقاط الشوائب والتفاصيل غير الضرورية، والتركيز بدلاً من ذلك في أكثر الجوانب جوهرية وأهمية في المشهد المصوَّر. إن التخلص الكفؤ من المعلومات الزائدة هو هدف محوري يسعى نموذج (V-JEPA) إلى تحقيقه بأقصى درجات الفعالية”.
ويمنح هذا التحول من نمذجة البكسلات إلى نمذجة المعاني، نموذج (V-JEPA) قدرة كبيرة على التعميم، ودقة عالية في فهم المشاهد الجديدة، وكفاءة لافتة في البيئات المعقّدة مثل القيادة الذاتية أو الروبوتات. وبذلك، لا يقتصر دوره على رؤية العالم، بل فهمه، وهي خطوة عميقة نحو ما يشبه الإدراك البشري، مما يفتح الباب للتساؤل عن مدى قربنا من عصر “الآلات الواعية”.
كشف فريق (V-JEPA) في شهر فبراير الماضي، عن نتائج لافتة في اختبار (IntPhys)، المصمم لقياس قدرة نماذج الذكاء الاصطناعي على التمي



إرسال التعليق