क्वेन VLo अलीबाबा का नया एआई मॉडल है जो मुफ्त में टेक्स्ट और इमेज इनपुट से इमेज बना सकता है और उन्हें इनलाइन एडिट करने की सुविधा भी देता है।
Queen VLO: आर्टिफिशियल इंटेलिजेंस की दुनिया में लगातार नई क्रांति लाने वाली अलीबाबा की क्वेन टीम ने एक और बड़ी उपलब्धि हासिल की है। हाल ही में उन्होंने Qwen VLo नाम का नया इमेज जेनरेशन और एडिटिंग AI मॉडल लॉन्च किया है, जो टेक्स्ट और इमेज इनपुट दोनों के साथ काम करता है। खास बात यह है कि यह मॉडल बिल्कुल मुफ़्त में उपलब्ध है और इस्तेमाल करने के लिए लॉगिन की भी जरूरत नहीं पड़ती।
यह मॉडल क्वेन के पुराने Vision-Language Model (Qwen 2.5) का अपग्रेडेड वर्जन है, और इसे कई नई और दमदार क्षमताओं से लैस किया गया है। इसका पूरा नाम Qwen3-235B-A22B है, जो इसके 235 बिलियन पैरामीटर और एडवांस्ड एक्सपर्ट आर्किटेक्चर को दर्शाता है।
टेक्स्ट से इमेज और इमेज से एडिटिंग
Qwen VLo की सबसे खास बात यह है कि यह सिर्फ इमेज बनाने तक सीमित नहीं है।
- Text-to-Image Generation – आप कोई भी टेक्स्ट कमांड दें, जैसे "एक पहाड़ी गांव की सुबह" या "भविष्य की उड़ने वाली कार", और यह AI आपको एकदम यूनिक इमेज बना देगा।
- Image-to-Image Editing – पहले से मौजूद किसी भी इमेज में बदलाव करें, जैसे उसमें रोशनी जोड़ना, बैकग्राउंड बदलना या नए ऑब्जेक्ट डालना।
- Inline Image Editing – AI उस इमेज को समझकर वहीं बदलाव करता है, जैसे किसी फोटो में किसी शख्स की टोपी का रंग बदलना या आंखों का आकार बदलना—बिना बाकी फोटो की क्वालिटी बिगाड़े।
मल्टी-लैंग्वेज और डायनामिक सपोर्ट
Qwen VLo को खासतौर पर अंग्रेज़ी और चीनी भाषाओं में प्रशिक्षित किया गया है, लेकिन इसकी मल्टी-लैंग्वेज प्रोसेसिंग क्षमता इसे अन्य भाषाओं को समझने और उसके आधार पर भी इमेज तैयार करने में सक्षम बनाती है। यही नहीं, यह मॉडल डायनामिक आस्पेक्ट रेशियो वाली इमेज, जैसे 4:1 और 1:3, को भी हैंडल कर सकता है।
कंपनी के मुताबिक, आने वाले समय में यह मॉडल विभिन्न आस्पेक्ट रेशियो में आउटपुट जनरेट करने की सुविधा भी देगा, जिससे उपयोगकर्ताओं को बैनर, पोस्टर, थंबनेल जैसे कस्टम ग्राफिक्स तैयार करने में और अधिक मदद मिलेगी।
एडवांस टेक्स्ट रेंडरिंग की ताक़त
AI इमेज जेनरेशन में टेक्स्ट रेंडरिंग अक्सर एक बड़ी चुनौती होती है। कई बार जनरेट की गई इमेज में शब्द धुंधले या टेढ़े-मेढ़े दिखाई देते हैं। लेकिन Qwen VLo में इस कमज़ोरी को दूर कर दिया गया है। अब यह मॉडल क्लियर, सटीक और सुंदर फ़ॉन्ट्स के साथ टेक्स्ट जेनरेट कर सकता है—वो भी यूज़र द्वारा बताई गई भाषा और स्टाइल के अनुसार।
यह विशेषता खासतौर पर ब्रांडिंग और सोशल मीडिया डिजाइनिंग के लिए बहुत उपयोगी है, जहां लोग अपने लोगो या पोस्ट में खास टेक्स्ट स्टाइल चाहते हैं।
तेजी से काम, कम इंतजार
इस AI मॉडल की इमेज जेनरेशन क्षमता Google के Imagen 2 के बराबर आंकी गई है, लेकिन इसका आउटपुट टाइम उससे कहीं कम है। Imagen-3 या GPT-4o जैसे मॉडल्स जहां एक हाई-क्वालिटी इमेज बनाने में 12-15 सेकंड लेते हैं, वहीं Qwen VLo केवल 7-8 सेकंड में इमेज तैयार कर देता है। इतना ही नहीं, यह ज्यादा दर सीमा (rate limit) भी प्रदान करता है यानी उपयोगकर्ता एक साथ कई जनरेशन अनुरोध भेज सकते हैं।
एज डिटेक्शन, सेगमेंटेशन और एनोटेशन भी
Qwen VLo को सिर्फ इमेज बनाने के लिए नहीं, बल्कि प्रोफेशनल इमेज प्रोसेसिंग कार्यों के लिए भी उपयोग किया जा सकता है। यह एज डिटेक्शन, इमेज सेगमेंटेशन, डेप्थ मैपिंग, और अन्य विज़ुअल एनालिटिक्स टास्क भी संभाल सकता है। इस विशेषता से यह मॉडल ग्राफिक डिजाइनर, मेडिकल इमेजिंग एनालिस्ट और रिसर्चर सभी के लिए उपयोगी बन जाता है।
फ्यूचर प्लान: मल्टी-इमेज कॉम्बिनेशन
क्वेन टीम ने बताया कि भविष्य में Qwen VLo कई इनपुट इमेज को लेकर एक संयुक्त रचना बनाने में सक्षम होगा। उदाहरण के लिए, यूज़र तीन अलग-अलग फोटो देकर एक नई क्रिएटिव रचना तैयार करवा सकेंगे। यह फीचर फोटो कोलाज, कंपोजिट पोर्ट्रेट, या फ्यूजन इमेज जैसे कार्यों में बेहद उपयोगी होगा।