4 मिनट पढ़ेंनई दिल्लीअपडेट किया गया: फ़रवरी 8, 2026 11:57 पूर्वाह्न IST
भारतीय एआई स्टार्ट-अप सर्वम ने भारतीय क्षेत्रों, लिपियों और लहजे में प्राकृतिक भाषण पीढ़ी में सुधार के साथ अपने टेक्स्ट-टू-स्पीच एआई मॉडल का एक नया संस्करण लॉन्च किया है।
सर्वम ने गुरुवार, 5 फरवरी को एक ब्लॉग पोस्ट में कहा, नया मॉडल, जिसे बुलबुल वी3 कहा जाता है, 11 से अधिक भारतीय भाषाओं के समर्थन के साथ पेशेवर आवाज कलाकारों से ली गई 35 से अधिक उच्च-गुणवत्ता वाली आवाजें प्रदान करता है। कंपनी निकट भविष्य में सभी 22 अनुसूचित भारतीय भाषाओं के लिए समर्थन बढ़ाने की योजना बना रही है।
बुलबुल V3 एक बड़े भाषा मॉडल (एलएलएम) के शीर्ष पर बनाया गया है जो पाठ का विश्लेषण करता है और इसे प्रोसोडिक तत्वों जैसे कि ठहराव, जोर, पेसिंग और टोन मॉड्यूलेशन के साथ एआई-जनरेटेड भाषण में परिवर्तित करता है, जिससे आउटपुट ध्वनि अधिक प्राकृतिक हो जाती है। कम-विलंबता स्ट्रीमिंग आउटपुट मोड में, एआई मॉडल उपयोगकर्ताओं को वास्तविक समय में ऑडियो उत्पन्न करने और चलाने की सुविधा देता है।
सर्वम ने कहा, “यह संवादात्मक अनुप्रयोगों, लाइव इंटरैक्शन और किसी भी अनुभव के लिए महत्वपूर्ण है जहां प्रतिक्रिया सीधे उपयोगकर्ता जुड़ाव को प्रभावित करती है।” स्टार्ट-अप ने कहा, “भारतीय बोली डिफ़ॉल्ट रूप से जटिल है। लोग वाक्य के बीच में ही भाषा बदल लेते हैं। उच्चारण क्षेत्र के अनुसार अलग-अलग होते हैं। नाम, संक्षिप्ताक्षर और भावनाएं शब्दों के समान ही मायने रखती हैं। भारत में काम करने के लिए, आवाज को बिना रुके यह सब संभालना होगा।”
एआई मॉडल उपयोगकर्ताओं को कस्टम एआई-जनरेटेड आवाजों को क्लोन करने और बनाने की सुविधा भी देता है। सहमति-आधारित, वॉयस क्लोनिंग सुविधा सर्वम के अनुसार, अंतर्निहित सुरक्षा उपायों के साथ आता है और इसे उच्च मात्रा वाले उद्यम उपयोग के मामलों के लिए डिज़ाइन किया गया है।
बुलबुल V3, सर्वम का नवीनतम AI मॉडल है, जिसे AI टूल के नियोजित 14-दिवसीय रोलआउट के हिस्से के रूप में लॉन्च किया गया है, जिसमें प्रत्येक दिन एक नई रिलीज़ होती है। व्यापक रूप से प्रतीक्षित भारत-एआई प्रभाव शिखर सम्मेलन 2026 इस महीने के अंत में नई दिल्ली में आयोजित किया जाएगा। सर्वम भी उन 12 स्टार्ट-अप और संस्थाओं में से एक है, जिन्हें भारत सरकार ने 10,300 करोड़ रुपये के भारत एआई मिशन के तहत सॉवरेन एलएलएम विकसित करने के लिए चुना है। इन स्वदेशी रूप से विकसित एआई मॉडल का शिखर सम्मेलन में अनावरण किए जाने की उम्मीद है, जो 16 फरवरी से 20 फरवरी, 2026 तक आयोजित किया जाएगा।
जो लोग नए मॉडल के साथ प्रयोग करना चाहते हैं, उनके लिए बुलबुल V3 को सर्वम डैशबोर्ड के माध्यम से एक्सेस किया जा सकता है। कंपनी 28 फरवरी, 2026 तक डेवलपर्स को नए एआई वॉयस-जेनरेशन मॉडल के लिए असीमित एपीआई एक्सेस भी दे रही है।
इस विज्ञापन के नीचे कहानी जारी है
मॉडल परीक्षण और प्रदर्शन
इसके परीक्षण के भाग के रूप में, सर्वम ने कहा कि बुलबुल वी3 का मूल्यांकन 11 भाषाओं में एक अंधे ए/बी मानव श्रवण अध्ययन में एक स्वतंत्र तृतीय-पक्ष द्वारा किया गया था। परीक्षण में बुलबुल V3 द्वारा उत्पन्न युग्मित ऑडियो नमूनों और समान इनपुट टेक्स्ट का उपयोग करके प्रतियोगियों के भाषण मॉडल की तुलना करना शामिल था।
सर्वम ने कहा कि जहां इलेवनलैब्स वी3 अल्फा ऑडियो गुणवत्ता के मामले में सूची में शीर्ष पर है, वहीं बुलबुल वी3 ने सामान्य (पूर्ण-बैंड) मूल्यांकन में कार्टेसिया सोनिक-3 और अन्य प्रतिद्वंद्वी मॉडलों से बेहतर प्रदर्शन किया है। कंपनी ने आगे दावा किया कि उसके नए AI मॉडल ने 8 kHz (टेलीफोनी) मूल्यांकन में अन्य सभी मॉडलों को पछाड़ दिया है।
सर्वम ने कहा, बुलबुल वी3 ने अतिरिक्त सामग्री त्रुटियों पर तुलनीय प्रदर्शन बनाए रखते हुए, “शब्द छोड़ने और गलत उच्चारण की सबसे कम दर दिखाई।”
अन्य रिलीज़
हाल के दिनों में सर्वम द्वारा जारी एआई मॉडल और टूल की एक सूची यहां दी गई है:
इस विज्ञापन के नीचे कहानी जारी है
सर्वम दृष्टि: यह एक 3 बिलियन-पैरामीटर दृष्टि-भाषा मॉडल है जो छवि कैप्शनिंग, दृश्य पाठ पहचान, चार्ट व्याख्या और जटिल तालिका पार्सिंग सहित दृश्य समझ कार्यों की एक श्रृंखला में सक्षम है।
सर्वम संवाद: संवादी एआई एजेंट जिन्हें मालिकाना डेटा के आधार पर कार्रवाई करने और अंतर्दृष्टि प्रदान करने के लिए ग्राहकों के एंटरप्राइज़ टूल के साथ एकीकृत किया जा सकता है।
सर्वम ऑडियो: यह सर्वम 3बी का एक ऑडियो एक्सटेंशन है, जो अंग्रेजी और 22 भारतीय भाषाओं पर पूर्व-प्रशिक्षित 3 बिलियन-पैरामीटर भाषा मॉडल है।
सर्वम डब: यह एक एआई डबिंग मॉडल है जिसमें जीरो-शॉट वॉयस क्लोनिंग, सटीक समय नियंत्रण और क्रॉस-लिंगुअल स्पीच मॉडल द्वारा संचालित है जो रचनाकारों को कई भारतीय भाषाओं में पॉडकास्ट, शैक्षिक पाठ्यक्रम आदि को डब करने की अनुमति देता है।
