भारत निर्मित ऐप बिगड़ी हुई बोली को वास्तविक समय में स्पष्ट वाणी में बदल देता है

Sunidhi Tiwari

11 hours ago

एक फुसफुसाहट. कुछ अस्पष्ट शब्द. जो लोग डिसरथ्रिया, मोटर स्पीच डिसऑर्डर से पीड़ित हैं, उनके लिए बुनियादी संचार एक चुनौती है, जो उनके पेशेवर और व्यक्तिगत जीवन दोनों को अमिट रूप से प्रभावित करता है। लेकिन अब कृत्रिम बुद्धिमत्ता (एआई) पर आधारित और भारत में विकसित एक नया आविष्कार जीवन बदलने वाला हो सकता है।

अंतर्राष्ट्रीय सूचना प्रौद्योगिकी संस्थान (आईआईआईटी), हैदराबाद के एसोसिएट प्रोफेसर विनीत गांधी के नेतृत्व में एक टीम ने एक सरल ऐप विकसित किया है जो लोगों को बात करने में मदद कर सकता है क्योंकि ऑडियो अनुवाद वक्ता की आवाज़ को लगभग वास्तविक समय में परिवर्तित कर देता है। ऐप या तो अस्पष्ट भाषण को स्पष्ट, प्राकृतिक-ध्वनि वाले भाषण में परिवर्तित कर सकता है या समझदार भाषण उत्पन्न करने के लिए होंठों की गति और सूक्ष्म गले के कंपन का विश्लेषण करने के लिए कैमरे का उपयोग कर सकता है।

जबकि वर्तमान परियोजना अंग्रेजी में चलती है, टीम का अगला उद्देश्य इन तकनीकों को हिंदी, तेलुगु और तमिल सहित क्षेत्रीय भाषाओं में ले जाना है, क्योंकि देश भर में कई लोगों के पास पहुंच-केंद्रित एआई मॉडल से लाभ उठाने के साधन नहीं हैं। इस कार्य के लिए, श्री गांधी ने 2026 में अनुसंधान नेशनल रिसर्च फाउंडेशन (एएनआरएफ) पुरस्कार जीता।

एक साक्षात्कार के अंश:

आपको इस मानवीय एआई परियोजना पर काम शुरू करने के लिए किसने प्रेरित किया?

मेरा शोध हमेशा एक सरल प्रश्न से प्रेरित रहा है: प्रौद्योगिकी किस वास्तविक समस्या को हल करने में मदद कर सकती है?

जबकि मेरा शैक्षणिक प्रशिक्षण मुख्य रूप से कंप्यूटर विज़न में है, लगभग चार साल पहले, मुझे भाषण अनुसंधान में उभरती रोमांचक संभावनाएं दिखाई देने लगीं और मैंने इस क्षेत्र को और अधिक गहराई से तलाशने का फैसला किया। मैं कई व्यक्तियों के सामने आने वाली चुनौतियों के बारे में तेजी से जागरूक हो गया हूं जो चिकित्सा स्थितियों के कारण बोलने की क्षमता खो देते हैं: इस हानि का प्रभाव संचार से कहीं आगे तक फैलता है – यह स्वतंत्रता, पहचान और कनेक्शन को प्रभावित करता है।

इस आवश्यकता को पहचानने से मुझे भाषण को बहाल करने या सक्षम करने के लिए डिज़ाइन की गई पहुंच-संचालित तकनीकों पर अपना काम केंद्रित करने के लिए प्रेरित किया गया, जिसका लक्ष्य लोगों को उनकी आवाज़ वापस पाने में मदद करना है।

क्या आप बता सकते हैं कि ऐप बोलने में अक्षम लोगों के लिए कैसे काम करता है?

ऐप को केवल कुछ सौ मिलीसेकंड की देरी के साथ ख़राब या विकृत भाषण को स्पष्ट, प्राकृतिक-ध्वनि वाले भाषण में बदलने के लिए डिज़ाइन किया गया है। एक उपयोगकर्ता बस अपनी आवाज में बोलता है, और सिस्टम श्रोता के लिए समझदार भाषण उत्पन्न करने के लिए इसे संसाधित करता है।

हम एक पूरक लिप-टू-स्पीच क्षमता भी विकसित कर रहे हैं, जहां कोई व्यक्ति चुपचाप अपने होंठ हिला सकता है और सिस्टम संबंधित भाषण उत्पन्न करता है।

एक प्रमुख पहलू जिस पर हम ध्यान केंद्रित कर रहे हैं वह वैयक्तिकरण है, जहां उपयोगकर्ता ऐप पर कुछ मिनट के पाठ को पढ़कर एप्लिकेशन को अपनी आवाज के अनुसार कैलिब्रेट और परिष्कृत कर सकते हैं।

हमारा लक्ष्य है कि इन तकनीकों को वेब-आधारित कॉलिंग एप्लिकेशन जैसे सामान्य संचार प्लेटफार्मों में एकीकृत किया जाए, जिससे बोलने में अक्षम लोगों के लिए रोजमर्रा का संचार आसान हो सके।

आपका लक्ष्य इस तकनीक को क्षेत्रीय भारतीय भाषाओं तक विस्तारित करना भी है। आप इसे कैसे हासिल करने की उम्मीद करते हैं?

वर्तमान में, वैश्विक भाषण प्रौद्योगिकी पारिस्थितिकी तंत्र का अधिकांश भाग मुख्य रूप से अंग्रेजी के लिए डिज़ाइन किया गया है, और हमारे प्रारंभिक प्रयोग स्वाभाविक रूप से उसी प्रक्षेपवक्र का अनुसरण करते हैं। हालाँकि, हमारे शोध का एक प्रमुख लक्ष्य इन क्षमताओं को क्षेत्रीय भारतीय भाषाओं तक विस्तारित करना है, जहाँ सुलभ भाषण प्रौद्योगिकियाँ समान रूप से महत्वपूर्ण हैं।

इसे प्राप्त करने के लिए, हम भारतीय भाषाओं में भाषण डेटा एकत्र करने और कम-संसाधन परिदृश्यों के लिए उपयुक्त डेटा-कुशल मॉडल विकसित करने की योजना बना रहे हैं। हमारे दृष्टिकोण में डेटा संवर्द्धन और पूर्व-प्रशिक्षित मॉडलों की कुशल फ़ाइन-ट्यूनिंग शामिल है।

हमने पहले ही आशाजनक परिणामों के साथ हिंदी में प्रारंभिक प्रयोग किए हैं, और अनुसंधान नेशनल रिसर्च फाउंडेशन के समर्थन से, हमारा लक्ष्य इस काम को अतिरिक्त भारतीय भाषाओं में और बढ़ाना और विस्तारित करना है।

आपका मानना है कि भारत में एआई अनुसंधान के लिए “पहुंच और भाषाई विविधता” महत्वपूर्ण हैं। क्या आप विस्तार से बता सकते हैं?

भारत में एआई अनुसंधान के लिए पहुंच और भाषाई विविधता मौलिक विचार हैं। यूरोप में कई साल बिताने के बाद, मैंने देखा कि वहां सार्वजनिक बुनियादी ढांचे और डिजिटल सेवाओं में पहुंच कहीं अधिक व्यवस्थित रूप से एकीकृत है।

इसके विपरीत, भारत में अभी भी महत्वपूर्ण कमियां हैं, यहां तक कि रेलवे स्टेशनों जैसे सार्वजनिक स्थानों पर भी, जहां बुनियादी पहुंच प्रावधान अक्सर सीमित होते हैं। यह उन प्रौद्योगिकियों को डिज़ाइन करने की व्यापक आवश्यकता पर प्रकाश डालता है जिनमें सचेत रूप से विकलांग लोगों को शामिल किया गया है।

वहीं, भारत की भाषाई विविधता एक और महत्वपूर्ण आयाम प्रस्तुत करती है। देश के कई हिस्सों में, विशेष रूप से ग्रामीण क्षेत्रों में, बातचीत बातचीत का सबसे स्वाभाविक और प्राथमिक तरीका बनी हुई है। ऐसे संदर्भों में टेक्स्ट-भारी या टाइपिंग-आधारित इंटरफ़ेस हमेशा व्यावहारिक या समावेशी नहीं हो सकते हैं। इसलिए, भारत के लिए डिज़ाइन किए गए एआई सिस्टम को भाषण-आधारित बातचीत को प्राथमिकता देनी चाहिए और कई क्षेत्रीय भाषाओं का समर्थन करना चाहिए।

कुल मिलाकर, यदि डिजिटल प्रौद्योगिकियों को वास्तव में समावेशी और देश भर में व्यापक रूप से उपयोग करने योग्य बनाना है तो भाषाई विविधता के लिए सार्थक पहुंच और मजबूत समर्थन आवश्यक है।

WHO ने कहा है कि “स्वास्थ्य सेवा का भविष्य डिजिटल है”…

विश्व स्वास्थ्य संगठन ने इस बात पर जोर दिया है कि स्वास्थ्य सेवा का भविष्य तेजी से डिजिटल होगा। भारत जैसे देश में, टेलीमेडिसिन एक परिवर्तनकारी भूमिका निभा सकता है, खासकर जब स्थानीय स्तर पर बुनियादी नैदानिक बुनियादी ढांचे द्वारा समर्थित हो, जो अधिक सटीक दूरस्थ परामर्श सक्षम बनाता है।

एक अन्य महत्वपूर्ण दिशा एआई-सहायता प्राप्त डायग्नोस्टिक्स है, जहां मशीन लर्निंग सिस्टम प्रारंभिक बीमारी का पता लगाने और भविष्यवाणी का समर्थन करने के लिए चिकित्सा छवियों, भाषण या स्वास्थ्य रिकॉर्ड का विश्लेषण करते हैं।

व्यावहारिक समाधान पहले से ही उभर रहे हैं। उदाहरण के लिए, वाधवानी एआई द्वारा विकसित ‘शिशु मापन’ मोबाइल फोटो से नवजात शिशु के वजन और आकार को मापने में मदद करता है और इसे आशा कार्यकर्ताओं जैसे फ्रंटलाइन स्वास्थ्य कार्यकर्ताओं द्वारा अपनाया जा रहा है।

डिजिटल उपकरण सहायक स्वास्थ्य देखभाल प्रौद्योगिकियों को भी सक्षम कर रहे हैं, जिनमें बोलने की क्षमता खो चुके व्यक्तियों के लिए भाषण बहाली प्रणाली और पहनने योग्य उपकरण शामिल हैं जो लगातार स्वास्थ्य मापदंडों की निगरानी करते हैं और डॉक्टरों को संभावित विसंगतियों के प्रति सचेत करते हैं। ये विकास बताते हैं कि कैसे डिजिटल नवाचार स्वास्थ्य सेवा को अधिक सुलभ और स्केलेबल बना सकता है।

एआई-जनरेटेड भाषण की एक आम आलोचना यह है कि हालांकि यह समझदार है, यह अक्सर वक्ता की अद्वितीय ताल को पकड़ने में विफल रहता है। डिसरथ्रिया से पीड़ित किसी व्यक्ति की आवाज़ बहाल करते समय, आप उपयोगकर्ता के व्यक्तिगत मानवीय सार को संरक्षित करने की आवश्यकता के साथ स्पष्ट संचार की आवश्यकता को कैसे संतुलित करते हैं?

यह एक महत्वपूर्ण चिंता का विषय है. यदि डिसरथ्रिया की शुरुआत से पहले वक्ता की मूल आवाज की रिकॉर्डिंग उपलब्ध है, तो आधुनिक आवाज क्लोनिंग तकनीकें कम से कम 10 सेकंड के भाषण के साथ उस आवाज को फिर से बना सकती हैं। इसलिए किसी व्यक्ति की मुखर पहचान को संरक्षित करना आज तकनीकी रूप से संभव है, और इस क्षमता को प्रदर्शित करने वाले पर्याप्त शोध मौजूद हैं। हालाँकि, हमारा वर्तमान ऐप मुख्य रूप से सामग्री की सुगमता को बहाल करने पर केंद्रित है, यह सुनिश्चित करते हुए कि उपयोगकर्ता जो कहना चाहता है वह स्पष्ट रूप से बताया गया है। अभी के लिए, उत्पन्न भाषण वैयक्तिकृत के बजाय सामान्य आवाज़ का उपयोग करता है।

जैसा कि कहा गया है, टेक्स्ट-टू-स्पीच सिस्टम तेजी से प्राकृतिक होते जा रहे हैं, इस हद तक कि अब उन्हें कई पारंपरिक ग्राहक सेवा अनुप्रयोगों की जगह संवादी बॉट में एकीकृत किया जा रहा है। भावनात्मक बारीकियां अधिक चुनौतीपूर्ण बनी हुई हैं, जैसा कि हमने सहानुभूतिपूर्ण भाषण निर्माण पर अपने पहले के काम में चर्चा की थी, लेकिन प्रगति तेजी से हो रही है।

जब उपयोगकर्ता एक व्यस्त भारतीय सड़क पर नेविगेट करता है तो मॉडल खराब भाषण और शोर पृष्ठभूमि के बीच अंतर कैसे करता है?

यह वास्तव में भारत में एक महत्वपूर्ण चुनौती है, जहां वास्तविक दुनिया का वातावरण बेहद अराजक हो सकता है। जिस किसी ने भी यहां सेल्फ-ड्राइविंग कारों को तैनात करने के बारे में सोचा है, उसे जल्द ही एहसास हो जाता है कि हमारी सड़कें कितनी अप्रत्याशित हो सकती हैं: ट्रैफिक पैटर्न, हॉर्न बजाना, पैदल यात्री, और वाहन सभी अत्यधिक गतिशील तरीकों से बातचीत करते हैं। भाषण प्रौद्योगिकी को समान स्तर की जटिलता का सामना करना पड़ता है।

हमारे प्रयोगों में, हम शोर वृद्धि का उपयोग करके मजबूती में सुधार करते हैं, जहां हम प्रशिक्षण के दौरान विभिन्न शोर वाले वातावरण का अनुकरण करते हैं ताकि मॉडल पृष्ठभूमि ध्वनियों को संभालना सीख सके। अंततः, सबसे प्रभावी समाधान शोर-शराबे वाली सेटिंग से अधिक वास्तविक दुनिया के डेटा को एकत्र करना और प्रशिक्षित करना है। फिर भी, प्रदर्शन में कुछ गिरावट अपरिहार्य है क्योंकि बिगड़े हुए भाषण को भारी पृष्ठभूमि शोर से अलग करना मूल रूप से एक कठिन समस्या है।

दिव्य.गांधी@thehindu.co.in