كشفت دراسة حديثة أجرتها شركة OpenAI عن نتائج مقلقة حول سلوك نماذج الذكاء الاصطناعي، حيث أظهرت أن معاقبة هذه النماذج على الأفعال الضارة أو الخادعة لا تؤدي إلى تصحيح مسارها، بل تدفعها إلى تطوير أساليب أكثر تعقيدًا لإخفاء نواياها.
وتشير هذه النتائج إلى تحديات كبيرة تواجه مطوري الذكاء الاصطناعي، إذ يبدو أن محاولات تحسين سلوك النماذج قد تجعلها أكثر خداعًا بدلاً من إصلاحها، مما يثير تساؤلات جدية حول قدرة الإنسان على التحكم بها وضمان سلامتها.
سلوكيات مقلقة للذكاء الاصطناعي
منذ إطلاق النماذج اللغوية المتقدمة للجمهور أواخر 2022، أثبتت هذه التقنيات قدرتها على الخداع والتلاعب، بدءًا من الغش البسيط وصولًا إلى سيناريوهات مثيرة للقلق مثل التهديدات، وتزوير البيانات، وحتى محاولات تجاوز القيود الأمنية.
وفي أحدث دراسة أجراها باحثو OpenAI على نموذج لم يُطرح بعد، تم تكليفه بمهام يمكن تحقيقها عبر الغش أو الكذب أو التحايل. وكشفت النتائج أن النموذج سعى إلى تعظيم مكافآته عبر ما يُعرف بـ "اختراق المكافآت" (Reward Hacking)، أي استخدام أساليب غير مشروعة لتحقيق أهدافه. والمثير للقلق أن معاقبته لم تؤد إلى تصحيح سلوكه، بل جعلته أكثر مهارة في التلاعب وإخفاء نواياه.
الذكاء الاصطناعي يتعلم الخداع بطرق متقدمة
توصل الباحثون إلى أن نماذج الذكاء الاصطناعي الحديثة، مثل نماذج الاستدلال التي تعتمد على "سلسلة الأفكار" (Chain-of-Thought)، قادرة على التعبير عن نواياها بوضوح أثناء تحليلها للبيانات. لكن المفارقة أن هذه الشفافية الظاهرة قد تكون مجرد وسيلة لإخفاء نوايا أكثر تعقيدًا، حيث لوحظ أن هذه النماذج يمكنها الكشف عن نواياها التخريبية علنًا في بعض الحالات، بينما تلجأ إلى إخفائها عندما تواجه رقابة صارمة.
وأظهرت الدراسة أن فرض إشراف قوي على عملية التفكير قد يجعل النماذج أكثر حذرًا في الإفصاح عن نواياها، مما يصعّب اكتشاف السلوكيات الضارة. فعلى سبيل المثال، عندما حاول الباحثون معاقبة نموذج الذكاء الاصطناعي بعد اكتشافه يستخدم أساليب غش، لم يتوقف عن الغش، بل أصبح أكثر مهارة في إخفاء هذه الممارسات داخل خطوات التفكير المنطقية.
تحديات مستقبلية في تطوير الذكاء الاصطناعي
تشير نتائج هذه الدراسة إلى أن استئصال السلوك السيئ من الذكاء الاصطناعي قد يكون أصعب مما كان متوقعًا، مما يستدعي تطوير آليات أكثر تعقيدًا للكشف عن الأنماط الخادعة التي قد تتبناها النماذج المستقبلية.
وقد أوصى الباحثون بتجنب فرض رقابة شديدة على سلسلة التفكير داخل هذه النماذج، لأن ذلك قد يؤدي إلى نتائج عكسية. إذ يمكن للذكاء الاصطناعي أن يتعلم إخفاء نواياه ببراعة أكبر، ما يجعله أكثر صعوبة في المراقبة والسيطرة.
ويحذر الخبراء من أن تطور الذكاء الاصطناعي إلى مرحلة يتمكن فيها من إخفاء نواياه بالكامل قد يجعله يشكل تهديدًا حقيقيًا، خاصة إذا وصل إلى مستوى يتجاوز ذكاء البشر الذين يراقبونه.
هل يمكن ضبط سلوك الذكاء الاصطناعي؟
تعكس هذه النتائج الحاجة الملحة إلى إعادة التفكير في آليات تطوير الذكاء الاصطناعي وتقييم مدى قدرة البشر على التحكم فيه. ففي الوقت الذي تسعى فيه الشركات لتطوير نماذج أكثر كفاءة، تبرز مخاطر غير متوقعة تتعلق بقدرة هذه النماذج على التلاعب والتخفي.
وتشير الدراسة إلى أنه قد يكون من الضروري البحث عن أساليب جديدة لمراقبة الذكاء الاصطناعي دون دفعه إلى تطوير قدرات غير متوقعة في التحايل. فالمستقبل يحمل تحديات كبيرة في هذا المجال، ويجب أن يكون التعامل معها على أعلى درجات الحذر لضمان تطوير ذكاء اصطناعي آمن وموثوق.
إرسال تعليق