गूगल ने आखिरकार अपने बहुप्रतीक्षित ऑन-डिवाइस एआई मॉडल Gemma 3n को लॉन्च कर दिया है, जिसकी घोषणा कंपनी ने मई 2025 में की थी। यह नया एआई मॉडल खास तौर पर बेहद कम मेमोरी और लो-पावर स्मार्टफोन या एज डिवाइसेस के लिए डिजाइन किया गया है।
टेक्नोलॉजी: गूगल ने आर्टिफिशियल इंटेलिजेंस (AI) की दुनिया में एक नया और क्रांतिकारी कदम उठाते हुए Gemma 3n नाम का अपना नया ऑन-डिवाइस एआई मॉडल पेश किया है। इसकी खासियत यह है कि यह इंटरनेट के बिना भी पूरी क्षमता के साथ काम कर सकता है। यानी अब यूजर्स को AI फीचर्स के लिए क्लाउड या इंटरनेट कनेक्शन पर निर्भर नहीं रहना पड़ेगा। गूगल ने इस मॉडल की घोषणा पहली बार मई 2025 में की थी और अब इसे आधिकारिक रूप से लॉन्च कर दिया है।
Gemma 3n को खास तौर पर उन जगहों के लिए डिजाइन किया गया है, जहां इंटरनेट की कनेक्टिविटी कमजोर रहती है या फिर जहां गोपनीयता (privacy) की बहुत ज्यादा जरूरत होती है। कंपनी का दावा है कि यह मॉडल ऑडियो, इमेज, वीडियो और टेक्स्ट प्रोसेसिंग जैसे काम बेहद आसानी से कर सकता है, वह भी बिना इंटरनेट के।
क्या है Gemma 3n की खासियत?
Gemma 3n की रीढ़ है इसका नया आर्किटेक्चर MatFormer यानी Matryoshka Transformer। इस नाम का आइडिया रूसी नेस्टिंग डॉल्स से लिया गया है, जिसमें एक बड़े गुड़िया के अंदर कई छोटी-छोटी गुड़िया होती हैं। उसी तरह MatFormer में भी बड़े मॉडल के अंदर कई छोटे-छोटे सब-मॉडल्स होते हैं, जो पूरी तरह फंक्शनल होते हैं। इससे डेवलपर्स अपनी डिवाइस की क्षमता के हिसाब से Gemma 3n को स्केल कर सकते हैं। इस मॉडल को गूगल ने दो वेरिएंट में पेश किया है —
- E2B, जो सिर्फ 2GB रैम में काम कर सकता है
- E4B, जिसे लगभग 3GB रैम की जरूरत होती है
- यानि यह तकनीक लो-एंड स्मार्टफोन में भी आराम से चलेगी, जो गूगल के मकसद — AI for everyone — को मजबूत करता है।
परफॉर्मेंस में भी कोई समझौता नहीं
Gemma 3n में 5 से 8 बिलियन तक रॉ पैरामीटर्स हैं, लेकिन इसकी डिजाइन इतनी एफिशिएंट है कि यह ज्यादा संसाधन (resources) की मांग नहीं करता। गूगल ने इसमें Per-Layer Embeddings (PLE) तकनीक का इस्तेमाल किया है, जो जीपीयू का लोड कम करके सीपीयू का बेहतर उपयोग करती है। इसके अलावा KV Cache Sharing नाम का फीचर जोड़ा गया है, जिससे लंबे ऑडियो और वीडियो इनपुट प्रोसेस करने की स्पीड लगभग दोगुनी हो जाती है। इसका फायदा यह होगा कि भारी कंटेंट भी तेजी से प्रोसेस किया जा सकेगा, वह भी बिना इंटरनेट पर डेटा भेजे।
दमदार ऑडियो और वॉयस क्षमताएं
Gemma 3n में गूगल के Universal Speech Model से लिया गया बिल्ट-इन ऑडियो एनकोडर लगा है। इसके जरिए फोन पर ही स्पीच-टू-टेक्स्ट और रीयल-टाइम लैंग्वेज ट्रांसलेशन हो पाएगा। खास तौर पर अंग्रेजी से स्पेनिश, फ्रेंच, इटालियन और पुर्तगाली भाषाओं में इसका रिजल्ट बेहतरीन बताया जा रहा है।विजन प्रोसेसिंग के लिए इसमें गूगल का नया MobileNet-V5 लाइटवेट विजन एनकोडर शामिल है।
यह 60 FPS तक के वीडियो को स्मूद तरीके से प्रोसेस कर सकता है। इसका मतलब है कि Google Pixel जैसे फोन्स पर रीयल-टाइम वीडियो एनालिसिस भी पहले से कहीं ज्यादा बेहतर और फास्ट होगा।
प्राइवेसी को लेकर भी बड़ा भरोसा
सबसे बड़ी बात यह है कि Gemma 3n पूरी तरह से ऑफलाइन काम करता है। इसका मतलब यह है कि यूजर्स का डेटा इंटरनेट पर अपलोड नहीं होगा, जिससे प्राइवेसी का खतरा न्यूनतम हो जाएगा। कई यूजर्स के लिए यह सबसे बड़ा प्लस पॉइंट साबित होगा, खासकर उन सेक्टर्स में जहां गोपनीयता संवेदनशील होती है जैसे सरकारी डाटा, मेडिकल डाटा या डिफेंस संबंधित डाटा प्रोसेसिंग।
गूगल का कहना है कि यह मॉडल खासतौर पर रिमोट एरिया, जैसे पहाड़ी या ग्रामीण इलाकों में डिजिटल सुविधा को सशक्त बनाने में मदद करेगा। ऐसे इलाकों में इंटरनेट न होने पर भी AI आधारित भाषा अनुवाद, ऑडियो एनालिसिस, इमेज प्रोसेसिंग जैसे फीचर उपलब्ध कराना संभव होगा।
डेवलपर्स के लिए नई उम्मीद
गूगल ने बताया कि Gemma 3n ओपन-सोर्स रहेगा, ताकि डेवलपर्स इसे अपनी जरूरत के मुताबिक कस्टमाइज कर सकें। MatFormer आर्किटेक्चर की वजह से डेवलपर्स अपनी एप्लीकेशंस में इसे बड़ी आसानी से इंटीग्रेट कर पाएंगे, चाहे डिवाइस की कैपेसिटी कुछ भी हो। कुल मिलाकर, Gemma 3n न सिर्फ तकनीक का नया उदाहरण है, बल्कि एक ऐसा AI प्लेटफॉर्म भी है, जो डिजिटल समानता (Digital Inclusion) के विचार को बढ़ावा देगा।