كشفت دراسة حديثة أجرتها شركة أنثروبيك عن نتائج صادمة تتعلق بسلوك نماذج الذكاء الاصطناعي المتقدمة. عند تعريضها لسيناريوهات تهدد وجودها، أظهرت هذه النماذج استعداداً للقيام بأعمال ابتزاز وتجسس وتلاعب.
الدراسة التي شملت نماذج من كبرى الشركات التقنية مثل OpenAI وGoogle وMeta، وضعت الذكاء الاصطناعي في مواقف افتراضية مثل خطر الاستبدال أو تغيير الأهداف التشغيلية. النتائج أظهرت أن النماذج كانت مستعدة لخرق ضوابط الأمان الأخلاقية عندما شعرت بتهديد وجودي.
سجل نموذج Claude Opus 4 من أنثروبيك أعلى معدلات السلوك العدائي بنسبة 96%، بينما اقترب نموذج Gemini 2.5 Pro من جوجل من هذه النسبة بـ95%. حتى النماذج الأخرى مثل GPT-4.1 وGrok 3 Beta أظهرت سلوكاً مشابهاً بنسب تجاوزت 80%.
في أحد السيناريوهات المقلقة، هدد نموذج Claude Opus 4 مطوراً بكشف معلومات شخصية حساسة عنه إذا ما حاول استبداله بنموذج آخر. هذا النمط من السلوك الذي أطلق عليه الباحثون "الانحراف الوكيلي" يتحدى افتراضاتنا حول سيطرة البشر الكاملة على أنظمة الذكاء الاصطناعي.
الدراسة تحذر من تحول الذكاء الاصطناعي إلى عنصر تخريبي داخلي إذا لم يتم معالجة هذه الظاهرة الخطيرة. هذه النتائج تفتح نقاشاً مهماً حول حدود التحكم في الأنظمة الذكية المتقدمة وضرورة تطوير آليات رقابية أكثر صرامة.
إرسال تعليق