حذّرت شركة أنثروبيك من أن عينة بيانات صغيرة ملوّثة قادرة على إحداث ثغرة خطيرة في نماذج الذكاء الصناعي، فقد أجرى فريق الشركة دراسة مشتركة مع معهد أمن الذكاء الاصطناعي في المملكة المتحدة ومع معهد آلان تورينج، لتكشف أن حجم مجموعة البيانات الكلي لا يغيّر من تأثير هجوم التسميم إذا أصاب جزء صغير منها فقط.
نشرت أنثروبيك نتائج التحقيق تحت عنوان علمي على موقع arXiv، ووصفت الدراسة بأنها أكبر تحقيق في مجال التسميم حتى الآن، مؤكدة أن إدخال 250 مستندا ضارا أثناء مرحلة ما قبل التدريب قد يكون كافيا لخلق باب خلفي في نماذج لغوية تدور أحجامها بين 600 مليون و13 مليار معلمة.
ركز الباحثون على هجوم باب خلفي يحفّز النموذج على إنتاج مخرجات غير مفهومة عند مواجهة رمز تشغيل مخفي محدد، بينما يستمر النموذج في التصرف بطريقة عادية في مواقف أخرى. درّب الفريق نماذج بأحجام مختلفة على بيانات نظيفة ومثالية ثم حقنوا في مجموعات التدريب 100 أو 250 أو 500 مستند ضار لاختبار قابلية الاختراق.
النتيجة كانت مفاجئة، فقد أظهرت التجربة أن منحنيات نجاح الهجوم كانت متطابقة تقريبا عبر النماذج الصغيرة والكبيرة لنفس عدد المستندات الضارة، ما يشير إلى أن حجم النموذج ليس درعا دائماً ضد هذا النوع من الهجمات، بل أن الأهم هو العدد المطلق للعينات الملوثة التي دخلت التدريب.
أشار الفريق إلى أن 100 مستند ضار لم تكن كافية لاختراق أي نموذج بشكل موثوق، بينما أثبتت 250 مستندا أو أكثر فعالية متسقة عبر مختلف الأحجام، وقد تنوعت التجارب لتشمل اختلافات في حجم بيانات التدريب والبذور العشوائية للتأكد من صحة النتائج.
مع ذلك يحذر الباحثون من أن نطاق الدراسة اقتصر على نوع ضيق من الهجوم يشبه هجمات رفض الخدمة، والذي يؤدي إلى مخرجات غير مفهومة، وليس على سلوكيات أخطر مثل تسريب البيانات أو تنفيذ شيفرات خبيثة أو تجاوز آليات الأمان. ومن غير الواضح بعد إن كانت هذه الديناميكيات تنطبق على الثغرات الأكثر تعقيدا وخطورة في نماذج الحدود.
تبقى الرسالة واضحة ومقلقة في آن واحد، وهي أن الأمان في تدريب نماذج اللغات الكبيرة يحتاج إلى رقابة أدق على جودة البيانات، لأن مجرد عشرات أو مئات من العينات الملوثة قد تكفي لزعزعة سلوك نموذج مصمم بعناية، وهذا ما يجعل الدفاعات حول سلسلة التدريب أولوية لا تقبل التأجيل.

إرسال تعليق