تعمل مجموعة "علي بابا" الصينية على تطوير أداة جديدة لتوليد الفيديو تعرف باسم Tora، والتي تستند إلى نموذج مفتوح المصدر يحمل اسم Sora، تم تطويره بواسطة شركة OpenAI.
وحسب ما ذكر باحثو "علي بابا"، فقد استخدموا نموذج OpenSora المفتوح المصدر لتصميم أداة "تورا"، وهي إطار عمل يتيح إنشاء الفيديوهات عبر أوامر نصية. وقد نشر الباحثون التفاصيل في ورقة بحثية الأسبوع الماضي، شارك فيها خمسة من باحثي "علي بابا".
تستند أداة Tora إلى معمارية تُعرف باسم Diffusion Transformer (DiT)، وهي البنية الجديدة التي تدير نموذج Sora. هذا النموذج يسمح بإنشاء فيديوهات بناءً على مسارات توجيه حركة العناصر داخل المقاطع، مثل شخص يركب دراجة هوائية على مسار سباق، مع الأخذ بعين الاعتبار العوامل المؤثرة في حركة العناصر في الواقع.
وأوضح الباحثون أن المشروع لا يزال "مستمرًا" ولا يوجد موعد محدد لإتاحة الأداة للاستخدام العام حتى الآن.
وتأتي هذه الخطوة من "علي بابا" في إطار سعي الشركة الصينية لإطلاق أدوات تنافسية في مجال توليد الفيديو، مشابهة لنموذج Sora الخاص بـ OpenAI. ففي فبراير الماضي، قدمت الشركة نموذج توليد الفيديو الذكي Emote Portrait Alive، المعروف بـ EMO، الذي يمكنه تحويل ملفات صوتية وصور لوجوه إلى فيديو يظهر الشخص يتحدث أو يغني بصوته الأصلي بدقة عالية.
وأشار الباحثون إلى أن نموذج EMO يتميز بقدرته على تحويل الصوت إلى فيديو بدقة عالية بدون الحاجة لنماذج ثلاثية الأبعاد للوجه، مما يجعله أسرع وأكثر كفاءة. كما يقدم النموذج دقة فائقة في محاكاة حركات الوجه، وحركة الشفاه والعينين، مع تحكم كامل في زوايا حركة الرأس.
وفي حين لم توضح الورقة البحثية الجديدة ما إذا كانت أداة Tora ستتعاون مع EMO أو Tongyi Qianwen، عائلة النماذج اللغوية الكبيرة التي طورتها "علي بابا"، فإن Tora تمثل محاولة صينية جديدة لمنافسة نموذج Sora.
هذا ويأتي تطوير Tora بعد أن طرحت الشركة الناشئة الصينية Shengshu AI في يوليو نموذجها Vidu الذكي، الذي يتيح توليد مقاطع فيديو قصيرة بطول 4 أو 8 ثوانٍ، بالإضافة إلى النموذج الذي أطلقته Zhipu AI والذي يقبل التعليمات النصية والصور لتوليد مقاطع بطول 6 ثوانٍ في حوالي 30 ثانية.
إرسال تعليق