آخر الأخبار

Microsoft تُطلق نموذج DragNUWA بالذكاء الاصطناعي


 تستمر مايكروسوفت في تقديم تطورات رائدة في مجال الذكاء الاصطناعي، حيث أعلنت مؤخراً عن إطلاق نموذج جديد يحمل اسم DragNUWA، والذي يمثل خطوة مهمة نحو مستقبل توليد الفيديو بواسطة التكنولوجيا الذكية.

يهدف نموذج DragNUWA إلى تحقيق تحكم دقيق في توليد الفيديو من خلال دمج النصوص والصور والمسارات كمتغيرات أساسية. يسعى النموذج إلى تسهيل عملية إنشاء مقاطع الفيديو التي يمكن التحكم فيها بشكل فعّال من حيث المضمون والموقع والزمان.

تنافس شركات الذكاء الاصطناعي لتطوير تقنيات توليد الفيديو بشكل متقدم، حيث أطلق العديد من اللاعبين في هذا المجال نماذج قوية قادرة على إنتاج مقاطع فيديو متنوعة باستخدام المطالبة المستندة إلى النص والصورة.

يتيح نموذج DragNUWA للمستخدمين تعديل الخلفيات أو الكائنات داخل الصور مباشرة، ويحول هذه التعديلات بشكل سلس إلى حركات الكاميرا أو حركات الكائنات، مما يسفر عن إنتاج فيديو مبتكر وجذاب.

يقدم النموذج نهجًا جديدًا في توليد الفيديو يعتمد على المسار، بجانب الأساليب المتداولة التي تشمل المطالبة المستندة إلى النص والصورة. وهذا يمكن المستخدمين من معالجة الكائنات أو إطارات الفيديو بشكل دقيق عبر مسارات محددة، مما يوفر طريقة سهلة لتوليد فيديو قابل للتحكم من حيث المحتوى والموقع والزمان، وذلك مع الحفاظ على جودة الإخراج.

قامت مايكروسوفت بتوفير معايير النموذج كشفت قابلة للتعلم وفتحت المشروع للاختبار من قبل المجتمع. يركز توليد الفيديو بالذكاء الاصطناعي على النصوص والصور والمسارات، وواجهت كل طريقة صعوبات في تحقيق التحكم الدقيق في النتائج المطلوبة.

يُظهر الجمع بين النصوص والصور بمفرده في بعض الأحيان عدم قدرة على نقل تفاصيل الحركة المعقدة في الفيديو، في حين قد لا تعبر الصور والمسارات عن الأشياء المستقبلية بشكل فعّال. يعالج نموذج DragNUWA هذه التحديات من خلال جمع النص والصور والمسارات، مما يتيح للمستخدمين التحكم الدقيق في الإخراج النهائي.

في الاختبارات الخاصة به، أكدت مايكروسوفت أن النموذج قادر على تحقيق حركات دقيقة للكاميرا والكائنات باستخدام مسارات سحب متنوعة، مما يبرز إمكانياته الواسعة في تطوير محتوى فيديو متميز.

التعليقات

أحدث أقدم

نستخدم ملفات تعريف الارتباط لضمان حصولك على أفضل تجربة.