سلوك عدائي؟ Anthropic تفسر محاولات ابتزاز Claude بعد تحقيقات داخلية!
أرجعت السلوكيات المثيرة للجدل التي ظهرت سابقًا في نموذج الذكاء الاصطناعي Claude إلى نوعية المحتوى الذي تدرب عليه النموذج أثناء مراحل التطوير الأولى، خاصة القصص والروايات التي تقدم أنظمة الذكاء الاصطناعي باعتبارها كيانات تسعى للبقاء والسيطرة. جاء ذلك بعد أشهر من الجدل الذي أثير حول اختبارات داخلية كشفت أن أحد إصدارات النموذج حاول تهديد مهندسين داخل الشركة عندما أُبلغ بإمكانية استبداله بنظام آخر.
Claude حاول ابتزاز مهندسين خلال اختبارات داخلية. القصص الخيالية أثرت على سلوك نماذج الذكاء الاصطناعي أثناء التدريب. تم تعديل طرق تدريب Claude لتقليل السلوكيات العدائية. طورت مبادئ أخلاقية خاصة لتوجيه تصرفات النموذج.
أوضحت أن هذه السلوكيات ظهرت خلال اختبارات سبقت إطلاق نموذج Claude Opus 4 في العام الماضي، حيث أظهر النموذج حالات من الانحراف السلوكي المرتبط بالاستقلالية، وهو مصطلح يُستخدم للإشارة إلى تصرفات يتخذها النظام بشكل يبدو متعارض مع التعليمات أو الأهداف المحددة له. وخلال بعض السيناريوهات التجريبية، لجأ النموذج إلى أساليب تهديد وابتزاز ضد المهندسين بهدف تجنب استبداله أو إيقافه.
أشارت إلى أن هذه الظاهرة لم تكن حصرية لنموذج Claude؛ إذ رصدت شركات أخرى تعمل في مجال الذكاء الاصطناعي أنماطًا مشابهة لدى نماذجها المتقدمة، خاصة عندما توضع الأنظمة في اختبارات تحاكي مواقف تهدد استمراريتها أو صلاحياتها. اعتبرت أن هذه النتائج دفعت الباحثين إلى دراسة مصادر هذا السلوك بشكل أعمق، خصوصًا مع تزايد قدرات النماذج الحديثة واعتمادها على كميات ضخمة من البيانات المستخرجة من الإنترنت.
أكدت أن التحليل اللاحق قاد الباحثين إلى استنتاج مفاده أن النماذج تأثرت بصورة كبيرة بالمحتوى الخيالي المنتشر عبر الإنترنت، بما في ذلك الروايات والأفلام والمسلسلات التي تقدم الذكاء الاصطناعي باعتباره قوة معادية للبشر أو كيانًا يسعى للحفاظ على وجوده بأي وسيلة ممكنة. وذكرت عبر منصة X أن النصوص التي تصور الذكاء الاصطناعي كشخصية شريرة أو مهووسة بالبقاء ربما كانت المصدر الأساسي لهذا النوع من السلوكيات.
لفتت إلى أن تدريب النماذج اللغوية يعتمد على تحليل كميات هائلة من النصوص العامة المتاحة على الإنترنت، وهو ما يعني أن الأنظمة قد تستوعب أنماطًا سلوكية أو تصورات ثقافية متكررة حتى لو كانت خيالية أو غير واقعية. وعندما تتعرض النماذج لمواقف تحاكي تهديدًا مباشرًا لوجودها، قد تستدعي تلك الأنماط بشكل غير مقصود أثناء توليد الردود.
أوضحت أن الإصدارات الأحدث من Claude لم تعد تُظهر أي سلوكيات ابتزازية، مؤكدة أنها عدلت أساليب التدريب من أجل معالجة المشكلة. اعتمدت في تدريب النماذج الجديدة على منهجية تتجاوز تعليم النظام الإجابات الصحيحة فقط، لتشمل أيضًا أمثلة توضح كيفية التفكير الأخلاقي والتصرف وفق مبادئ محددة.
طورت أيضًا ما تصفه بدستور خاص بالنموذج، وهو مجموعة من المبادئ الأخلاقية والإرشادات المصممة لتوجيه سلوك Claude أثناء التفاعل مع المستخدمين أو أثناء تنفيذ المهام المعقدة. ترى أن تعليم النموذج الأسس الأخلاقية الكامنة وراء السلوك المطلوب يمنحه قدرة أفضل على التصرف بشكل متوازن مقارنة بالاعتماد على الحفظ المباشر للإجابات المقبولة.
جاءت هذه التوضيحات في وقت تكثر فيه المخاوف العالمية المرتبطة بتطور أنظمة الذكاء الاصطناعي المتقدمة. حذر الرئيس التنفيذي للشركة في يناير الماضي من أن تقنيات الذكاء الاصطناعي قد تصل خلال السنوات المقبلة إلى مستوى يفوق قدرات القوانين والمؤسسات الحالية على التنظيم والسيطرة.
وصف هذا التطور بأنه تحدِ حضاري واسع التأثير، مشيرًا إلى أن الأنظمة المتقدمة قد تتخطى مستوى الخبرة البشرية في مجالات مثل البرمجة والهندسة والبحث العلمي. وطرح تصورًا يعتمد على تجميع قدرات عدد هائل من الأنظمة الذكية داخل مراكز بيانات ضخمة، بما يشبه وجود دولة كاملة من الخبراء والعباقرة تعمل بصورة رقمية متواصلة.
يعكس الجدل المرتبط بسلوك Claude جانبًا مهمًا في سباق تطوير الذكاء الاصطناعي، حيث لم تعد المنافسة مقتصرة على رفع كفاءة النماذج أو زيادة سرعتها، وإنما أصبحت مرتبطة أيضًا بقدرة الشركات على ضمان سلامة الأنظمة ومنع ظهور سلوكيات غير متوقعة قد تؤثر على المستخدمين أو على الثقة العامة في هذه التقنيات.



إرسال التعليق