أعلنت جوجل عن تطوير سلسلة جديدة من النماذج اللغوية تحت اسم DataGemma، والتي تتميز بدقتها العالية في الإجابة عن الأسئلة المتعلقة بالحقائق الرقمية، مقارنةً بالخوارزميات السابقة. وقد تم توفير التعليمات البرمجية المصدرية لهذه السلسلة عبر منصة Hugging Face، مما يتيح للباحثين والمطورين استخدامها في تطبيقاتهم الخاصة.
تستهدف سلسلة DataGemma الإجابة عن الاستفسارات المتعلقة بالحقائق الإحصائية، مثل متوسط إيرادات الشركات في قطاع معين، من خلال الاستفادة من مستودع Data Commons الذي تديره جوجل. يحتوي مستودع Data Commons على أكثر من 240 مليار نقطة بيانات مستمدة من مصادر موثوقة مثل الأمم المتحدة ومنظمة الصحة العالمية ومراكز السيطرة على الأمراض.
تعتمد سلسلة DataGemma على نموذج Gemma 2 27B، وهو نموذج لغوي كبير مفتوح المصدر أصدرته جوجل في يونيو ويتميز بـ 27 مليار معلمة. تقول جوجل إن Gemma 2 27B قادر على منافسة أداء النماذج اللغوية الكبيرة التي تحتوي على ضعف عدد المعلمات. سلسلة DataGemma تعتمد على نسخة مُحسنة من Gemma 2 27B خصيصاً لمعالجة الحقائق الرقمية.
النموذج يتفاعل مع مستودع Data Commons من خلال شريط بحث بلغة طبيعية، مما يسهل على المستخدمين طرح الأسئلة دون الحاجة إلى معرفة تفاصيل المخطط البياني أو واجهة برمجة التطبيقات الخاصة بالبيانات. وفي هذا الصدد، قالت جوجل في تدوينتها: "تستخدم سلسلة DataGemma واجهة اللغة الطبيعية لمستودع Data Commons لطرح الأسئلة بدلاً من الحاجة إلى معرفة مخطط البيانات المحدد، وتكمن النقطة الدقيقة في تدريب النموذج اللغوي الكبير لمعرفة متى يسأل."
طورت جوجل نسختين من سلسلة DataGemma، كل منهما تعتمد نهجاً مختلفاً في الإجابة عن الأسئلة. النسخة الأولى تستخدم طريقة تعرف باسم RIG (التوليد المتداخل للاسترجاع)، حيث يجلب النموذج المعلومات المطلوبة من مستودع Data Commons ثم يستخدم النموذج اللغوي الكبير لتوليد استجابة سريعة.
أما النسخة الثانية فتستخدم طريقة إدارة البيانات RAG (التوليد المعزز للاسترجاع)، حيث يسترد النموذج المعلومات ذات الصلة من مستودع Data Commons ثم يرسل المعلومات إلى نموذج Gemini 1.5 Pro لتوليد الإجابة.
وفقاً لمجلة MIT Technology Review، فإن النسخة RIG من سلسلة DataGemma تسترجع بنجاح الحقائق الرقمية من مستودع Data Commons بنسبة 58 في المئة. بينما النسخة RAG حققت معدلات نجاح تتراوح بين 80 في المئة و94 في المئة في توليد إجابات صحيحة خلال اختبارات جوجل.
إرسال تعليق