أعلنت شركة ميتا عن إطلاق نموذجها الجديد Llama 3.2، وهو أول نموذج مفتوح المصدر يتمكن من معالجة كل من الصور والنصوص. يأتي هذا الإعلان بعد شهرين فقط من إطلاق نموذج Llama 3.1، حيث أكدت ميتا أن النموذج الجديد حقق نموًا قدره 10 أضعاف حتى الآن.
يمكّن Llama 3.2 المطورين من إنشاء تطبيقات ذكاء اصطناعي متقدمة تشمل تطبيقات الواقع المعزز التي تتيح فهمًا في الوقت الفعلي للفيديو، ومحركات البحث المرئية التي تقوم بفرز الصور استنادًا إلى محتواها، بالإضافة إلى ميزة تحليل المستندات التي تقوم بتلخيص النصوص الطويلة.
النموذج الجديد يأتي مزودًا بقدرات كبيرة، حيث يحتوي على نموذجين للرؤية مكونين من 11 مليار و 90 مليار معلمة، بالإضافة إلى نموذجين نصيين يتراوحان بين مليار و 3 مليارات معلمة، ما يجعلهما مناسبين للأجهزة المحمولة والأجهزة الطرفية.
مارك زوكربيرج، الرئيس التنفيذي لميتا، علق على النموذج الجديد قائلاً: "هذا هو أول نموذج متعدد الوسائط مفتوح المصدر لدينا، وهو يتيح تشغيل تطبيقات تتطلب فهمًا بصريًا عالي الجودة".
Llama 3.2 قادر على التعامل مع النصوص الطويلة، حيث يصل طول سياق النموذج إلى 128000 رمز مميز، مما يسمح بإدخال كميات كبيرة من النصوص. كما يدعم حالات استخدام متنوعة للصور، بما في ذلك القدرة على فهم المخططات والرسوم البيانية، والتعليق التوضيحي على الصور، وتحديد الكائنات استنادًا إلى أوصاف اللغة الطبيعية.
فيما يتعلق بالنماذج النصية، يمكن لـ Llama 3.2 مساعدة المطورين في بناء تطبيقات مخصصة، مثل تلخيص الرسائل أو إرسال دعوات الاجتماعات عبر تقويمات إلكترونية، مما يجعله خيارًا مثاليًا للبيئات الخاصة.
من جهة أخرى، أكدت ميتا أن النموذج الجديد يتفوق على نماذج مثل Claude 3 Haiku من أنثروبيك و GPT4o-mini من OpenAI في فهم الصور وتنفيذ مهام الفهم البصري. كما يتفوق على نماذج أخرى في مجالات مثل متابعة التعليمات، التلخيص، وإعادة الكتابة.
Llama 3.2 هو خطوة جديدة ضمن استراتيجيات ميتا الرامية إلى تعزيز التكنولوجيا مفتوحة المصدر، إذ ترى الشركة أن هذه النماذج المفتوحة توفر أداءً عاليًا مع تكلفة أقل ومرونة أكبر للمطورين، ما يجعلها معيارًا صناعيًا متقدمًا في هذا المجال.
إرسال تعليق