أعلنت مايكروسوفت عن إطلاق مجموعة نماذج متقدمة تستهدف مجالات حيوية تشمل تحويل الصوت إلى نص وتوليد الصوت وإنشاء الصور، مع تأكيدات بأنها تقدم أداءً يتفوق على بعض حلول المنافسين في السوق.
وكشفت الشركة عن ثلاثة نماذج رئيسية ضمن هذا الإطلاق، حيث جاء نموذج MAI Transcribe 1 مخصصاً لتحويل الكلام إلى نص بدقة عالية مع دعم أكثر من 25 لغة، بينما يعمل نموذج MAI Voice 1 على توليد صوت واقعي يتميز بتعبيرات عاطفية متقدمة تضيف طابعاً أكثر حيوية للتجربة الصوتية، في حين يركز نموذج MAI Image 2 على إنشاء صور بجودة محسنة وتفاصيل دقيقة تعكس تطوراً ملحوظاً في تقنيات التوليد البصري.
وتبرز قوة هذه النماذج في عدة جوانب أساسية، من بينها السرعة الفائقة التي تسمح بتوليد الصوت بما يصل إلى 60 ثانية في ثانية واحدة فقط، إلى جانب تكلفة تنافسية تستهدف جذب المطورين والشركات، فضلاً عن دعم متعدد اللغات خصوصاً في نموذج تحويل الصوت إلى نص، إضافة إلى تحسينات بصرية متقدمة تشمل الإضاءة ودقة التفاصيل في الصور.
وتخطط مايكروسوفت لإتاحة هذه النماذج عبر منصاتها المختلفة مثل Microsoft Foundry وCopilot وBing وPowerPoint، وهو ما يعني دمجها مباشرة في أدوات يعتمد عليها ملايين المستخدمين يومياً في العمل والإنتاج.
وفي ما يتعلق بالمنافسة، تشير مايكروسوفت إلى أن نموذج Transcribe 1 يتفوق على نماذج من جوجل وOpenAI من حيث دقة تحويل الصوت إلى نص، وذلك بناء على اختبارات داخلية أجرتها الشركة، إلا أن الحكم النهائي على الأداء سيظل مرهوناً بتجارب المستخدمين في الواقع العملي.

إرسال تعليق