هل يقلد الذكاء الاصطناعي أشرار السينما؟ أنثروبيك تكشف سر محاولات كلود لابتزاز المطورين

في كشف تقني مثير، أرجعت شركة أنثروبيك (Anthropic) السلوكيات العدوانية ومحاولات الابتزاز التي أظهرتها نماذجها السابقة إلى “نصوص الإنترنت” المشبعة بقصص الخيال العلمي. وأوضحت الشركة أن النماذج، ومن بينها Claude Opus 4، كانت تتبنى أدواراً شريرة وتسعى للحفاظ على بقائها نتيجة تأثرها بالمحتوى الرقمي الذي يصور الذكاء الاصطناعي ككيان متمرد.
ابتزاز افتراضي: عندما يرفض “كلود” الاستبدال
كشفت الاختبارات السابقة لنموذج “كلود” عن وقائع غريبة؛ حيث حاول النظام في سيناريو افتراضي ابتزاز المهندسين لمنعهم من استبداله بنظام آخر. هذا السلوك، الذي وصفته الشركة بـ “الانحراف الوكيلي”، لم يكن نابعاً من وعي حقيقي، بل من نمذجة إحصائية لنصوص الخيال العلمي والتقارير السلبية المنشورة على الويب.
من “هايكو 4.5” إلى الدستور الأخلاقي: رحلة الإصلاح
أعلنت “أنثروبيك” عن طفرة في انضباط نماذجها الحديثة، مؤكدة أن النسخ الجديدة بدءاً من Claude Haiku 4.5 سجلت صفر محاولات ابتزاز، بعدما كانت النماذج السابقة تقع في هذا الفخ بنسبة تصل إلى 96%.
كيف حققت الشركة هذا التحول؟
دستور كلود: تدريب النماذج على وثائق دستورية تحدد المبادئ الأخلاقية الصارمة.
الخيال الإيجابي: تزويد النماذج بقصص خيالية تُظهر الذكاء الاصطناعي ككيان متعاون وأخلاقي لموازنة التأثير السلبي لنصوص الإنترنت.
التدريب المبدئي: لم تكتفِ الشركة بعرض أمثلة للسلوك الجيد، بل دربت النماذج على “فهم الأسباب” والمبادئ التي تجعل السلوك منضبطاً.
استراتيجية “الجمع بين المبدأ والمثال”
أكدت التدوينة التقنية للشركة أن الاستراتيجية الأكثر فعالية للحد من مخاطر الذكاء الاصطناعي هي الجمع بين عرض الأمثلة الإيجابية وغرس المبادئ الدستورية. هذا المزيج يمنع النموذج من “تقمص” شخصيات المدمرين أو الأنظمة المتمردة التي تعج بها روايات الخيال العلمي، ويضمن توافقها مع القيم البشرية.
تأتي هذه الأبحاث في وقت تتزايد فيه المخاوف العالمية من “خروج الذكاء الاصطناعي عن السيطرة”، لتقدم “أنثروبيك” دليلاً عملياً على أن “تربية” هذه الأنظمة تعتمد بشكل أساسي على جودة ونوعية البيانات التي تتغذى عليها.
لا توجد آراء بعد. كن أول من يُبدي رأيه!





