सर्वम ने 14-दिवसीय लॉन्च ब्लिट्ज के हिस्से के रूप में नया एआई वॉयस मॉडल, बुलबुल वी3 लॉन्च किया | प्रौद्योगिकी समाचार

4 मिनट पढ़ेंनई दिल्लीअपडेट किया गया: फ़रवरी 8, 2026 11:57 पूर्वाह्न IST

भारतीय एआई स्टार्ट-अप सर्वम ने भारतीय क्षेत्रों, लिपियों और लहजे में प्राकृतिक भाषण पीढ़ी में सुधार के साथ अपने टेक्स्ट-टू-स्पीच एआई मॉडल का एक नया संस्करण लॉन्च किया है।

सर्वम ने गुरुवार, 5 फरवरी को एक ब्लॉग पोस्ट में कहा, नया मॉडल, जिसे बुलबुल वी3 कहा जाता है, 11 से अधिक भारतीय भाषाओं के समर्थन के साथ पेशेवर आवाज कलाकारों से ली गई 35 से अधिक उच्च-गुणवत्ता वाली आवाजें प्रदान करता है। कंपनी निकट भविष्य में सभी 22 अनुसूचित भारतीय भाषाओं के लिए समर्थन बढ़ाने की योजना बना रही है।

बुलबुल V3 एक बड़े भाषा मॉडल (एलएलएम) के शीर्ष पर बनाया गया है जो पाठ का विश्लेषण करता है और इसे प्रोसोडिक तत्वों जैसे कि ठहराव, जोर, पेसिंग और टोन मॉड्यूलेशन के साथ एआई-जनरेटेड भाषण में परिवर्तित करता है, जिससे आउटपुट ध्वनि अधिक प्राकृतिक हो जाती है। कम-विलंबता स्ट्रीमिंग आउटपुट मोड में, एआई मॉडल उपयोगकर्ताओं को वास्तविक समय में ऑडियो उत्पन्न करने और चलाने की सुविधा देता है।

सर्वम ने कहा, “यह संवादात्मक अनुप्रयोगों, लाइव इंटरैक्शन और किसी भी अनुभव के लिए महत्वपूर्ण है जहां प्रतिक्रिया सीधे उपयोगकर्ता जुड़ाव को प्रभावित करती है।” स्टार्ट-अप ने कहा, “भारतीय बोली डिफ़ॉल्ट रूप से जटिल है। लोग वाक्य के बीच में ही भाषा बदल लेते हैं। उच्चारण क्षेत्र के अनुसार अलग-अलग होते हैं। नाम, संक्षिप्ताक्षर और भावनाएं शब्दों के समान ही मायने रखती हैं। भारत में काम करने के लिए, आवाज को बिना रुके यह सब संभालना होगा।”

एआई मॉडल उपयोगकर्ताओं को कस्टम एआई-जनरेटेड आवाजों को क्लोन करने और बनाने की सुविधा भी देता है। सहमति-आधारित, वॉयस क्लोनिंग सुविधा सर्वम के अनुसार, अंतर्निहित सुरक्षा उपायों के साथ आता है और इसे उच्च मात्रा वाले उद्यम उपयोग के मामलों के लिए डिज़ाइन किया गया है।

बुलबुल V3, सर्वम का नवीनतम AI मॉडल है, जिसे AI टूल के नियोजित 14-दिवसीय रोलआउट के हिस्से के रूप में लॉन्च किया गया है, जिसमें प्रत्येक दिन एक नई रिलीज़ होती है। व्यापक रूप से प्रतीक्षित भारत-एआई प्रभाव शिखर सम्मेलन 2026 इस महीने के अंत में नई दिल्ली में आयोजित किया जाएगा। सर्वम भी उन 12 स्टार्ट-अप और संस्थाओं में से एक है, जिन्हें भारत सरकार ने 10,300 करोड़ रुपये के भारत एआई मिशन के तहत सॉवरेन एलएलएम विकसित करने के लिए चुना है। इन स्वदेशी रूप से विकसित एआई मॉडल का शिखर सम्मेलन में अनावरण किए जाने की उम्मीद है, जो 16 फरवरी से 20 फरवरी, 2026 तक आयोजित किया जाएगा।

जो लोग नए मॉडल के साथ प्रयोग करना चाहते हैं, उनके लिए बुलबुल V3 को सर्वम डैशबोर्ड के माध्यम से एक्सेस किया जा सकता है। कंपनी 28 फरवरी, 2026 तक डेवलपर्स को नए एआई वॉयस-जेनरेशन मॉडल के लिए असीमित एपीआई एक्सेस भी दे रही है।

इस विज्ञापन के नीचे कहानी जारी है

मॉडल परीक्षण और प्रदर्शन

इसके परीक्षण के भाग के रूप में, सर्वम ने कहा कि बुलबुल वी3 का मूल्यांकन 11 भाषाओं में एक अंधे ए/बी मानव श्रवण अध्ययन में एक स्वतंत्र तृतीय-पक्ष द्वारा किया गया था। परीक्षण में बुलबुल V3 द्वारा उत्पन्न युग्मित ऑडियो नमूनों और समान इनपुट टेक्स्ट का उपयोग करके प्रतियोगियों के भाषण मॉडल की तुलना करना शामिल था।

सर्वम ने कहा कि जहां इलेवनलैब्स वी3 अल्फा ऑडियो गुणवत्ता के मामले में सूची में शीर्ष पर है, वहीं बुलबुल वी3 ने सामान्य (पूर्ण-बैंड) मूल्यांकन में कार्टेसिया सोनिक-3 और अन्य प्रतिद्वंद्वी मॉडलों से बेहतर प्रदर्शन किया है। कंपनी ने आगे दावा किया कि उसके नए AI मॉडल ने 8 kHz (टेलीफोनी) मूल्यांकन में अन्य सभी मॉडलों को पछाड़ दिया है।

सर्वम ने कहा, बुलबुल वी3 ने अतिरिक्त सामग्री त्रुटियों पर तुलनीय प्रदर्शन बनाए रखते हुए, “शब्द छोड़ने और गलत उच्चारण की सबसे कम दर दिखाई।”

अन्य रिलीज़

हाल के दिनों में सर्वम द्वारा जारी एआई मॉडल और टूल की एक सूची यहां दी गई है:

इस विज्ञापन के नीचे कहानी जारी है

सर्वम दृष्टि: यह एक 3 बिलियन-पैरामीटर दृष्टि-भाषा मॉडल है जो छवि कैप्शनिंग, दृश्य पाठ पहचान, चार्ट व्याख्या और जटिल तालिका पार्सिंग सहित दृश्य समझ कार्यों की एक श्रृंखला में सक्षम है।

सर्वम संवाद: संवादी एआई एजेंट जिन्हें मालिकाना डेटा के आधार पर कार्रवाई करने और अंतर्दृष्टि प्रदान करने के लिए ग्राहकों के एंटरप्राइज़ टूल के साथ एकीकृत किया जा सकता है।

सर्वम ऑडियो: यह सर्वम 3बी का एक ऑडियो एक्सटेंशन है, जो अंग्रेजी और 22 भारतीय भाषाओं पर पूर्व-प्रशिक्षित 3 बिलियन-पैरामीटर भाषा मॉडल है।

सर्वम डब: यह एक एआई डबिंग मॉडल है जिसमें जीरो-शॉट वॉयस क्लोनिंग, सटीक समय नियंत्रण और क्रॉस-लिंगुअल स्पीच मॉडल द्वारा संचालित है जो रचनाकारों को कई भारतीय भाषाओं में पॉडकास्ट, शैक्षिक पाठ्यक्रम आदि को डब करने की अनुमति देता है।