تعمل شركة الأبحاث في مجال الذكاء الاصطناعي OpenAI على تطوير أداة جديدة تهدف إلى تفسير سلوكيات نماذج اللغة الكبيرة التي يعتمد عليها روبوت الدردشة الشهير ChatGPT. تتميز هذه النماذج بأنها تعتبر صندوقًا أسود يحتوي على العديد من الأسرار التي يصعب على علماء البيانات فهمها، حيث يصعب حتى على المتخصصين في هذا المجال معرفة السبب الحقيقي وراء استجابات النموذج بالطريقة التي يستجيب بها.
تعمل OpenAI على تطوير أداة جديدة لتحديد الأجزاء المسؤولة تلقائيًا عن سلوك نماذج اللغة الكبيرة، في محاولة لتفسير آلية عملها. يتم استخدام نموذج لغوي آخر، وهو GPT-2، لمعرفة وظائف المكونات الخاصة بنماذج اللغة الأكثر تعقيدًا من الناحية المعمارية. ومع أن الأداة لا تزال في مراحلها الأولى، إلا أن الشفرة المصدرية متاحة بشكل مفتوح على GitHub. وفقًا لـ William Saunders، مدير فريق التفسير في OpenAI، يهدف فريق العمل إلى تطوير طرق لتوقع مشكلات نظام الذكاء الاصطناعي والثقة في الإجابات التي ينتجها النموذج.
يمكن تشبيه نماذج اللغة الكبيرة بالدماغ حيث إنها تتكون من "خلايا عصبية" تلاحظ نمطًا معينًا في النص يؤثر على "ما سيقوله" النموذج لاحقًا. تستخدم أداة OpenAI هذا التكوين لتقسيم النماذج إلى أجزاء فردية، حيث تقوم الأداة بتشغيل تسلسلات نصية عبر النموذج وتنتظر الحالات التي تنشط فيها الخلايا العصبية بشكل متكرر. بعد ذلك، يتم عرض هذه الخلايا العصبية النشطة على نموذج اللغة الكبير الأحدث GPT-4 من OpenAI، ويتم توليد تفسير لذلك.
ولتقييم دقة التفسير، تقدم الأداة تسلسلات نصية لنموذج GPT-4 وتتنبأ بكيفية تفاعل الخلايا العصبية، ثم تقارن السلوك الفعلي للخلايا العصبية المنشأة بتلك التوقعات. وفقًا لـ Jeff Wu الذي يعمل أيضًا على الأداة: "يمكننا باستخدام هذه المنهجية، الحصول على تفسير طبيعي أولي لسلوك كل خلية عصبية فريدة، وكذلك تحديد درجة توافق هذا التفسير مع السلوك الفعلي".
وفقًا للباحثين، يتم استخدام نموذج GPT-4 كجزء من عملية توليد تفسيرات للخلايا العصبية التي تبحث عنها، ومن ثم تحديد مدى توافق هذه التفسيرات مع سلوكها الفعلي. تمكن الباحثون من إنشاء تفسيرات لجميع 307,200 خلية عصبية في نموذج GPT-2، والتي تم جمعها في مجموعة بيانات مع شفرة الأداة. يقول الباحثون إنه يمكن استخدام أدوات مثل هذه في المستقبل لتحسين أداء نماذج اللغة الكبيرة وتقليل التحيزات والسلبيات الأخرى، ولكن هناك طريق طويل يجب السير فيه قبل أن تكون هذه الأدوات فعالة بشكل فعلي.
وعلى الرغم من أن الأداة كانت واثقة في تفسيراتها لنحو 1,000 خلية عصبية، إلا أن الباحث (وو) يقول إن معظم التفسيرات كانت سيئة جدًا أو لم تفسر الكثير من سلوك الخلايا العصبية الفعلية. وأشار إلى أنه في بعض الأحيان يكون هناك نمط يمكن تمييزه في تفاعل الخلية العصبية، ولكن النموذج GPT-4 غير قادر على العثور عليه، وذلك لأن بعض الخلايا العصبية تنشط بطريقة يصعب فيها تحديد النمط الموجود فيها.
إرسال تعليق