आईआईटी मद्रास के AI4भारत ने भारतीय भाषाओं के लिए नए बेंचमार्क टेस्ट का अनावरण किया, संदर्भ

भारतीय प्रौद्योगिकी संस्थान (आईआईटी) मद्रास की एक शोध प्रयोगशाला एआई4भारत ने एक नया, ओपन-सोर्स बेंचमार्क परीक्षण पेश किया है, जिसे विशेष रूप से भारतीय भाषाओं के साथ-साथ भारतीय संदर्भ और सुरक्षा पर बड़े भाषा मॉडल (एलएलएम) के प्रदर्शन का आकलन करने के लिए डिज़ाइन किया गया है।

Google क्लाउड के समर्थन से विकसित, इंडिक एलएलएम-एरिना बेंचमार्क एक क्राउड-सोर्स्ड प्लेटफॉर्म है जो हजारों गुमनाम उपयोगकर्ताओं द्वारा डाले गए वोटों के आधार पर एलएलएम का मूल्यांकन करता है। AI4भारत ने सोमवार, 10 नवंबर को एक ब्लॉग पोस्ट में कहा कि मॉडलों को “ह्यूमन-इन-द-लूप” लीडरबोर्ड पर रैंक किया गया है।

वर्तमान में, इंडिक एलएलएम-एरिना कई भारतीय भाषाओं और कोड-मिक्स परिदृश्यों में केवल टेक्स्ट-आधारित इनपुट का समर्थन करता है। हालाँकि, AI4भारत ने कहा कि उसकी दृष्टि और ऑडियो क्षमताओं के साथ-साथ AI एजेंटों के साथ ओमनी मॉडल को कवर करने के लिए बेंचमार्क का विस्तार करने की योजना है।

इस विज्ञापन के नीचे कहानी जारी है

अनुसंधान प्रयोगशाला ने कहा, “मूल्यांकन केवल 22 अनुसूचित भाषाओं का अनुवाद करने के बारे में नहीं है। यह भारतीयों के संवाद करने के प्राकृतिक, तरल तरीके को समझने के बारे में है। इसमें कोड-स्विचिंग (उदाहरण के लिए, हिंग्लिश या टैंगलिश) शामिल है, जहां उपयोगकर्ता एक ही वाक्य में कई भाषाओं को मिलाते हैं।” इसमें कहा गया है कि सभी अज्ञात डेटा, कोड और पाइपलाइन सामुदायिक निरीक्षण और विस्तार के लिए एक ओपन-सोर्स लाइसेंस के तहत जारी किए जाएंगे।

🚀 इंडिक एलएलएम-एरिना की घोषणा 🇮🇳
AI4भारत (IIT मद्रास) में, हमारा मिशन हमेशा स्पष्ट रहा है – भारतीय भाषाओं के लिए खुला, समावेशी और विश्व स्तरीय AI बनाना।

इस लक्ष्य को आगे बढ़ाने के लिए, आज, हम इंडिक एलएलएम-एरिना, एक भीड़-स्रोत, मानव-इन-द-लूप लीडरबोर्ड पेश कर रहे हैं…

– AI4भारत (@ai4भारत) 10 नवंबर 2025

AI4भारत का इंडिक एलएलएम-एरिना कई भारतीय एआई डेवलपर्स द्वारा इंडिक एलएलएम के प्रदर्शन का मूल्यांकन और तुलना करने के लिए स्थानीय बेंचमार्क की कमी को बार-बार उजागर करने के बाद आया है। पिछले हफ्ते, OpenAI ने IndQA नामक अपना स्वयं का बेंचमार्क परीक्षण लॉन्च किया, जो एक मॉडल की भाषाई क्षमता के साथ-साथ सभी डोमेन में भारतीय सांस्कृतिक संदर्भ की समझ का परीक्षण करता है।

AI स्टार्टअप के अनुसार, IndQA बेंचमार्क में 12 भाषाओं और 10 सांस्कृतिक डोमेन के 2,278 प्रश्न शामिल हैं, जिन्हें पूरे भारत के 261 विशेषज्ञों की साझेदारी में संकलित किया गया है।

इंडिक एलएलएम-एरिना के साथ, एआई4भारत की परिकल्पना है कि स्टार्टअप और शोधकर्ता सटीक रूप से देख पाएंगे कि उनके मॉडल इंडिक-विशिष्ट उपयोग-मामलों और भाषाओं पर दूसरों के मुकाबले कैसा प्रदर्शन करते हैं। संगठन ने कहा, “विभिन्न डोमेन के व्यवसाय इस डेटा का उपयोग इस बारे में सूचित निर्णय लेने के लिए कर सकते हैं कि कौन से मॉडल को अपनाना है, जोखिम को कम करना है और अपने ग्राहकों की सेवा करने वाले एआई की तैनाती में तेजी लाना है।”

इंडिक एलएलएम-एरिना कैसे काम करता है

यह कहते हुए कि बेंचमार्क एलमेरेना जैसे अन्य प्लेटफार्मों से प्रेरित था, एआई4भारत ने कहा कि इसमें एक लिया गया निष्पक्ष, अंधी और अगल-बगल तुलना इंडिक एलएलएम-एरिना विकसित करने का दृष्टिकोण।

इस विज्ञापन के नीचे कहानी जारी है

– सबसे पहले उपयोगकर्ता किसी भी भाषा या भाषाओं के मिश्रण में एक संकेत दर्ज करता है।
– इसके बाद, प्लेटफ़ॉर्म दो अज्ञात एलएलएम (उदाहरण के लिए मॉडल ए और मॉडल बी) से प्रतिक्रियाएं प्रस्तुत करता है। AI4भारत ने कहा कि प्रदाता पूर्वाग्रह को रोकने के लिए मॉडलों की पहचान छिपाई गई है।
– उपयोगकर्ता तब एआई-जनरेटेड प्रतिक्रिया के लिए वोट करता है जो उन्हें बेहतर लगता है या इंटरैक्शन को टाई के रूप में चिह्नित करता है।
– उपयोगकर्ता द्वारा वोट की गई ऐसी हजारों लड़ाइयों के बाद, AI4भारत ने कहा कि वह वास्तविक दुनिया के भारतीय संकेतों के संबंध में मॉडलों को उनके प्रदर्शन के आधार पर रैंक करने के लिए ब्रैडली-टेरी सांख्यिकीय मॉडल का उपयोग करता है।

आने वाले महीनों में, AI4भारत ने कहा कि वह रैंकिंग में सांख्यिकीय अनिश्चितता को दूर करने के बाद एक अद्यतन सार्वजनिक लीडरबोर्ड प्रकाशित करेगा। इसने भाषा, डोमेन, कार्यों आदि के आधार पर अधिक विस्तृत लीडरबोर्ड पेश करने का भी सुझाव दिया।