Microsoft ने तीन नए स्पेशलाइज्ड आर्टिफिशियल इंटेलिजेंस (AI) मॉडल लॉन्च किए हैं। ये मॉडल इमेज जनरेशन, वॉइस जनरेशन और स्पीच-टू-टेक्स्ट ट्रांसक्रिप्शन पर फोकस करते हैं। कंपनी का दावा है कि ये मॉडल प्रतिस्पर्धी कंपनियों जैसे Google और OpenAI के मॉडलों से बेहतर प्रदर्शन करते हैं।
MAI-Transcribe-1: ट्रांसक्रिप्शन में नया बेंचमार्क
Microsoft का MAI-Transcribe-1 मॉडल 25 सबसे ज्यादा इस्तेमाल होने वाली भाषाओं में सटीक स्पीच-टू-टेक्स्ट ट्रांसक्रिप्शन देने का दावा करता है। कंपनी के अनुसार, FLEURS बेंचमार्क पर किए गए इंटरनल टेस्ट में इसने Gemini 3.1 Flash और GPT-Transcribe जैसे मॉडलों से कम एरर रेट दिखाया है। साथ ही, इसे कीमत और परफॉर्मेंस के लिहाज से भी बेहतर बताया जा रहा है।
MAI-Voice-1: इंसानों जैसी आवाज का अनुभव
MAI-Voice-1 मॉडल “नेचुरल और रियलिस्टिक” आवाज तैयार करने में सक्षम है। यह मॉडल भावनाओं, एक्सप्रेशन और टोन को बेहतर तरीके से पेश करता है। खास बात यह है कि यूजर्स सिर्फ कुछ सेकंड के ऑडियो से अपनी कस्टम वॉइस भी बना सकते हैं। यह मॉडल एक सेकंड में 60 सेकंड का ऑडियो जनरेट कर सकता है और Copilot के Audio Expressions और Podcasts फीचर में इस्तेमाल होगा।

microsfot
MAI-Image-2: इमेज क्वालिटी और स्पीड में सुधार
MAI-Image-2 मॉडल इमेज जनरेशन में पहले से बेहतर क्वालिटी और तेज स्पीड देने के लिए डिजाइन किया गया है। इसे फोटोग्राफर्स, डिजाइनर्स और विजुअल स्टोरीटेलर्स के साथ मिलकर तैयार किया गया है। यह मॉडल नैचुरल लाइटिंग, सटीक टेक्सचर और इमेज के अंदर क्लियर टेक्स्ट पर फोकस करता है। विज्ञापन कंपनी WPP इसे अपनाने वाली शुरुआती पार्टनर्स में शामिल है।
Microsoft Foundry और अन्य प्लेटफॉर्म पर उपलब्ध
ये तीनों AI मॉडल फिलहाल Microsoft Foundry और MAI Playground के जरिए उपलब्ध हैं। इसके अलावा इन्हें धीरे-धीरे Bing और PowerPoint जैसे कंज्यूमर प्रोडक्ट्स में भी रोलआउट किया जा रहा है। Microsoft का कहना है कि ये नए AI मॉडल तेज जनरेशन और प्रतिस्पर्धी कीमतों के साथ बाजार में नई दिशा तय करेंगे। इससे डेवलपर्स और आम यूजर्स दोनों को बेहतर AI अनुभव मिल सकेगा।
