एआई इम्पैक्ट समिट 2026 से आने वाली अधिकांश खबरें भाषा मॉडल, छोटे, सेक्टर-विशिष्ट सिस्टम से लेकर बड़े मूलभूत मॉडल और इन मॉडलों को प्रशिक्षित करने, तैनात करने और स्केल करने के लिए आवश्यक गणना पर केंद्रित रही हैं।
हालाँकि, रिचर्ड सटन और यान लेकन जैसे एआई अग्रदूतों के नेतृत्व में शोधकर्ताओं के एक बढ़ते समूह का तर्क है कि स्केलिंग कानून जो एक बार मॉडल के प्रदर्शन में तेज वृद्धि का कारण बने थे, टूट गए हैं, और मॉडल पर अधिक जीपीयू (ग्राफिक्स प्रोसेसिंग यूनिट) फेंकने से अधिक सटीक, उच्च-गुणवत्ता वाली प्रतिक्रियाएं नहीं मिलेंगी।
एडैप्शन लैब्स की सीईओ और सह-संस्थापक सारा हुकर शिखर सम्मेलन में आमंत्रित प्रमुख एआई शोधकर्ताओं में से एक हैं, जो उद्योग से एलएलएम से परे देखने का आग्रह कर रही हैं। हुकर के पास Google Brain में अपने दिनों से लेकर एंटरप्राइज़ AI स्टार्टअप कोहेयर के तहत एक शोध प्रयोगशाला का नेतृत्व करने तक, AI अनुसंधान के क्षेत्र में काम करने का एक मजबूत ट्रैक रिकॉर्ड है।
2024 में एआई के 100 सबसे प्रभावशाली लोगों में नामित समय पत्रिका, वह अब एआई सिस्टम बनाने पर ध्यान केंद्रित कर रही है जो वास्तविक दुनिया की बातचीत से लगातार सीख सकती है और अधिक दक्षता के साथ ऑन-द-फ्लाई को अनुकूलित कर सकती है। के साथ एक साक्षात्कार में Indianexpress.comहुकर इस बारे में गहराई से बात करते हैं कि कैसे बड़े मॉडलों में अधिक जीपीयू जोड़ने का युग आगे निकल गया है घटते प्रतिफल का बिंदु और एआई का भविष्य अनुकूली शिक्षण में क्यों निहित है।
प्रश्न: क्या आप स्केलिंग कानूनों के इतिहास और उनके साथ-साथ एआई मॉडल कैसे विकसित हुए हैं, इसका संक्षिप्त विवरण दे सकते हैं?
पतुरिया: 2012 तक, वास्तव में कोई स्केलिंग कानून नहीं थे, और तीन दशकों तक गहरे तंत्रिका नेटवर्क काम नहीं करते थे। 2012 ने सब कुछ बदल दिया क्योंकि यह जीपीयू और डीप न्यूरल नेटवर्क के बीच भाग्यशाली टक्कर थी। जीपीयू ने अंततः गहरे तंत्रिका नेटवर्क को काम करने के लिए प्रेरित किया।
तब से, हम पैमाने के आदी हो गए हैं। पिछले 15 वर्षों से, एक शोधकर्ता के रूप में कंप्यूटर विज्ञान के बारे में मेरा सारा दृष्टिकोण, जब मैं गूगल ब्रेन में था और कोहेरे प्रयोगशालाओं का नेतृत्व कर रहा था, यही रहा है कि ‘आप यथासंभव सबसे बड़े मॉडल का निर्माण करें। आप जितना संभव हो उतने जीपीयू फेंकें।’ अब, हम इस मोड़ पर हैं कि आगे क्या होगा? मेरा दृष्टिकोण अभी भी कई हलकों में कुछ हद तक विवादास्पद है। लेकिन, मेरे दृष्टिकोण से, स्केलिंग वास्तव में एक संकट से गुजर रही है क्योंकि ट्रांसफॉर्मर आर्किटेक्चर को अब लाभ प्राप्त करते हुए स्केल नहीं किया जा सकता है। स्केलिंग कानून अब टूट गए हैं।
प्रश्न: तो स्केलिंग कानून अब विफल क्यों हो रहे हैं?
इस विज्ञापन के नीचे कहानी जारी है
पतुरिया: क्योंकि बहुत सी चीजें यह निर्धारित करती हैं कि आप स्केल कर सकते हैं या नहीं, जिसे हम मॉडल प्रकार कहते हैं। एआई मॉडल को ऐसे समझें कि एक इंसान कुछ मात्रा में बुद्धि के साथ पैदा हुआ है क्योंकि हजारों वर्षों से हमारे आनुवंशिकी ने हमें वह दिया है। जब हम बच्चे होते हैं तब भी हम कुछ हद तक होशियार होते हैं। वह मॉडल है. प्रशिक्षित न होने पर भी इसमें बहुत शक्तिशाली होने की क्षमता होती है।
हालाँकि सच्चाई यह है कि एक नया मॉडल हर बार मानव बुद्धि के वितरण को थोड़ा ऊपर उठाने जैसा है। लेकिन उसके भीतर भी एक वितरण है। मैं कहूंगा, आप मॉडल को कैसे प्रशिक्षित करते हैं, मॉडल दुनिया का पता कैसे लगाता है, यह हमारे जीवनकाल में हमारी बुद्धिमत्ता की तरह है क्योंकि हम इसी तरह सीखते हैं।
प्रश्न: क्या आप सामान्यीकरण के मार्ग के रूप में एलएलएम को बढ़ाने के बारे में बहस को खोल सकते हैं? क्या आप सहमत हैं कि सुदृढीकरण सीखना (आरएल) एक मृत अंत है? क्या इसका समर्थन करने के लिए कोई सबूत है?
पतुरिया: अभी विभाजन यह है कि लोगों का एक समूह है जो कहता है कि नहीं, यह सिर्फ मॉडल है, आप बस इस पर जीपीयू फेंक देते हैं। फिर, लोगों का एक और समूह है जो कहता है कि नहीं, मॉडल वास्तव में मर चुका है, हम मॉडल से और अधिक प्राप्त नहीं कर सकते हैं। हमें इस बारे में और अधिक सोचने की ज़रूरत है कि मॉडल दुनिया के साथ कैसे इंटरैक्ट करता है और मॉडल कैसे सीखता है।
इस विज्ञापन के नीचे कहानी जारी है
मैं इस बात से सहमत नहीं हूं कि आरएल मर चुका है क्योंकि टेस्ट-टाइम स्केलिंग, ऐसी चीजें करना जो सीखने और बातचीत करने के बारे में हैं, जो कि हमारे जीवनकाल में इंसानों को और अधिक बुद्धिमान बनाने के समान है – यह अभी भी काफी आशाजनक है। लेकिन बस मॉडल को बड़ा बनाने का काम हो गया है.
प्रश्न: हाल ही में एक पॉडकास्ट उपस्थिति में, एंथ्रोपिक के डारियो अमोदेई ने हाल ही में कहा कि पूर्व-प्रशिक्षण से लाभ मिलता रहता है।
पतुरिया: मैं प्री-ट्रेनिंग पर डारियो से असहमत हूं। मुझे लगता है कि उनका विचार है कि शायद आपको अभी भी प्री-ट्रेनिंग के लिए बहुत अधिक रिटर्न मिलता है, लेकिन मेरा कहना यह है कि मुझे नहीं लगता कि कोई भी अगले साल अपने मॉडल के आकार को 4 गुना करने जा रहा है। तो भले ही आप अभी भी कुछ लाभ देख रहे हों, यह चार साल पहले की तरह नहीं है जहां आप हर साल अपने मॉडल का आकार चौगुना या 10 गुना कर देते थे। तो वहां हम असहमत हैं।
प्रश्न: आरएल पर, डारियो ने यह भी कहा कि गणित प्रतियोगिताओं, कोडिंग इत्यादि जैसे कार्यों के व्यापक मिश्रण का विस्तार करने से एआई मॉडल की सामान्य बुद्धि में सुधार हो सकता है।
इस विज्ञापन के नीचे कहानी जारी है
पतुरिया: मैं वास्तव में आरएल पर उनसे सहमत हूं, जो आमतौर पर प्रशिक्षण के बाद होता है। डेटा गुणवत्ता बहुत मायने रखती है. इसलिए मैं उस दृष्टिकोण के ख़िलाफ़ नहीं हूं कि कुछ स्थान ऐसे हैं जहां हम अभी भी बहुत अधिक वापसी देखते हैं। लेकिन यह प्रशिक्षण में नहीं है और इसका मुख्य कारण यह है कि ट्रांसफार्मर आर्किटेक्चर ख़त्म हो चुका है।
उन आरएल तकनीकों के बारे में अच्छी बात यह है कि वे पूर्व-प्रशिक्षण की तुलना में काफी सस्ती हैं। आरएल, प्रशिक्षण के बाद और परीक्षण-समय स्केलिंग करने के लिए यह बहुत कम गणना है, लेकिन उस गणना के लिए रिटर्न बहुत अधिक है, जिसका अर्थ है कि यह इस बात से कहीं अधिक है कि कौन नया कर सकता है बजाय इसके कि किसके पास सबसे अधिक जीपीयू है। यह दुनिया को फिर से मज़ेदार बना देता है। इसका मतलब है कि अधिक स्थानों से अधिक नवीनता आ सकती है।
प्रश्न: एडाप्टेशन लैब्स किस बारे में है? आप जो एआई सिस्टम बना रहे हैं वह एलएलएम से वास्तुशिल्प रूप से कैसे भिन्न है?
पतुरिया: अधिकांश लोग सहज रूप से समझते हैं कि जब वही एलएलएम अरबों लोगों को भेजा जाता है, तो यह उन्हें विफल कर देता है क्योंकि इसका मतलब है कि लोग अंततः वे शीघ्र इंजीनियर बन जाते हैं. वे इसे अपने लिए कार्यान्वित करने का प्रयास करने के लिए मॉडल के चारों ओर कलाबाज़ी करते हैं, और इससे उपयोगकर्ता और पूरे देश पर इसे अपने संदर्भ के लिए कार्यान्वित करने का भारी बोझ पड़ता है। आसान प्रश्नों और कठिन समस्याओं के लिए एक ही विशाल मॉडल का उपयोग करना भी गणना की बर्बादी है।
इस विज्ञापन के नीचे कहानी जारी है
एडाप्टेशन लैब्स सभी के लिए एक ही मॉडल बनाने से आगे बढ़ने के बारे में है।
एडाप्टेशन लैब्स में, हम ऐसे मॉडल बना रहे हैं जो नए डेटा से सीखते रहेंगे, और यह सुनिश्चित करेंगे कि हम हर समस्या पर समान मात्रा में गणना खर्च न करें।
हमारे लिए, आरएल और टेस्ट-टाइम स्केलिंग अभी भी प्रासंगिक है क्योंकि हमारा ध्यान वास्तविक समय अनुकूलन पर है। हम चाहते हैं कि जब आप फीडबैक दें और मॉडल का व्यवहार बदलें तो आप वास्तविक समय में अंतर देख सकें। हम ग्रेडिएंट-मुक्त तकनीकों का लाभ उठाने पर भी ध्यान केंद्रित कर रहे हैं। इसलिए आपको मॉडल को फिर से प्रशिक्षित करने की आवश्यकता नहीं है, आप बिना प्रशिक्षण के या तो वजन बदलकर या डिकोडिंग रणनीति को बदलकर मॉडल के व्यवहार को बदल सकते हैं।
प्रश्न: सतत सीखना क्या है? यह अनुकूली शिक्षण और संदर्भ-आधारित शिक्षण से किस प्रकार भिन्न है?
पतुरिया: निरंतर सीखना अनुकूलन का एक संस्करण है। इसका आमतौर पर मतलब है कि समय के साथ, मॉडल सीखता है और नए डेटा के साथ सीखना जारी रखता है। यह भी सवाल है कि क्या मॉडल इस समय विभिन्न प्रकार के डेटा के अनुकूल हो सकता है। मुझे दोनों समस्याएं दिलचस्प लगती हैं और एडाप्टेशन लैब्स में हम दोनों पर काम कर रहे हैं।
इस विज्ञापन के नीचे कहानी जारी है
निरंतर सीखना महत्वपूर्ण है क्योंकि जब आप एआई मॉडल का अगला संस्करण बनाते हैं और इसे सभी को भेजते हैं, तो आप एक नया मॉडल विकसित करने के लिए आगे बढ़ते हैं। इसलिए मॉडल का पिछला संस्करण बुद्धिमत्ता के उस स्तर पर अटका हुआ है। इसके विपरीत, मनुष्य, जब हम माध्यमिक विद्यालय से स्नातक होते हैं, तो हम अपने शेष जीवन के लिए बुद्धिमत्ता के उस स्तर पर अटके नहीं रहते हैं। जैसे-जैसे हम नौकरियों में जाते हैं, हम अनुकूलन करना जारी रखते हैं, और सहयोग करते हैं और एक-दूसरे से सीखते हैं। हमारा लक्ष्य एआई में अनुकूलन की उसी अंतर्निहित मानवीय गुणवत्ता का निर्माण करना है, और बुद्धिमत्ता के एक नए युग की शुरुआत करना है।
लेकिन हमें अभी भी यह पता लगाना है कि निरंतर सीखने को अत्यंत कुशलतापूर्वक कैसे किया जाए। अभी, जिस तरह से लोग लगातार सीख रहे हैं वह अधिक डेटा पर मॉडल को फिर से प्रशिक्षित करने का एक संस्करण है जो समान तकनीकों का उपयोग करके एक कम्प्यूटेशनल बोझ है।
संदर्भ में सीखना त्वरित इंजीनियरिंग के समान है। आप बस प्रॉम्प्ट में ढेर सारा इतिहास भर रहे हैं, लेकिन यह मॉडल वजन और लगातार मॉडल व्यवहार को नहीं बदलता है।
प्रश्न: यदि एलएलएम कम प्रासंगिक हो जाता है, तो भारत जैसे देशों के लिए इसका क्या मतलब होगा, जहां बड़ी तकनीक यहां डेटा सेंटर निवेश बढ़ा रही है?
इस विज्ञापन के नीचे कहानी जारी है
पतुरिया: इन्फ्रास्ट्रक्चर हमेशा बहुत मूल्यवान होता है। बुनियादी ढांचे में निवेश आम तौर पर एक पारिस्थितिकी तंत्र का समर्थन करने की इच्छा का संकेत देता है और मेरे लिए यह काफी शक्तिशाली है क्योंकि इसका मतलब है कि दुनिया के विभिन्न हिस्सों में अधिक तकनीकी पारिस्थितिकी तंत्र होंगे जो एआई को आकार दे सकते हैं।
एडाप्टेशन लैब्स जिस चीज़ पर ध्यान केंद्रित कर रही है, वह है मॉडल व्यवहार को बदलने की व्यक्तिगत लागत को और अधिक कुशल बनाना। भले ही यह सच है, बहुत से लोग एआई का उपयोग करना चाहते हैं और उस मांग का समर्थन करने के लिए बुनियादी ढांचे का होना मूल्यवान है।
प्रश्न: आपने कहा कि जीपीयू एलएलएम के साथ अच्छा काम करते हैं, लेकिन अगर कल हमारे पास वास्तुशिल्प रूप से अलग एआई मॉडल है, तो क्या हम इन डेटा केंद्रों को फिर से स्थापित कर पाएंगे?
पतुरिया: यह एक अच्छा प्रश्न है क्योंकि गहरे तंत्रिका नेटवर्क से भटकना बहुत कठिन है। यह एक जोखिम है क्योंकि जब हम एनवीडिया के एच100 से ब्लैकवेल्स में स्थानांतरण देखते हैं, तो यह पीढ़ीगत है और हम लगातार डेटा केंद्रों को फिर से तैयार कर रहे हैं। लेकिन क्या यह एक जोखिम है जो आपको डेटा सेंटर बनाने से रोक सकता है? नहीं, इसे सबसे पहले बनाना अभी भी महत्वपूर्ण है।
इस विज्ञापन के नीचे कहानी जारी है
प्रश्न: भारत अधिक एआई अनुसंधान प्रतिभा को कैसे बढ़ावा दे सकता है और यहां विश्व स्तर पर प्रतिस्पर्धी अग्रणी एआई प्रयोगशालाएं कैसे स्थापित कर सकता है? इन प्रयोगशालाओं को फंड किसे देना चाहिए?
पतुरिया: भारत को पहले इसके लिए जगह बनानी होगी. नवाचार आम तौर पर तब होता है जब सांस लेने की थोड़ी गुंजाइश होती है, और जब लोगों के पास विभिन्न दृष्टिकोणों के माध्यम से सोचने का समय होता है। एक से अधिक संस्थानों पर दांव लगाना भी महत्वपूर्ण है। आमतौर पर, फंडिंग कई अलग-अलग संस्थानों को दी जानी चाहिए क्योंकि आप कभी नहीं जानते कि कौन सा संस्थान नवप्रवर्तन की संस्कृति को जन्म देगा
मैं निश्चित रूप से सिफारिश करूंगा कि एक वितरित दृष्टिकोण होना चाहिए, विभिन्न राज्यों में अलग-अलग नवाचार केंद्र होने चाहिए, और प्रौद्योगिकी पर विरोधाभासी दांव होने चाहिए। इंजीनियरिंग संचालन और निष्पादन के बारे में होती है। नवाचार अप्रत्याशित के बारे में होता है और आप कभी भी अनुमान नहीं लगा सकते कि अप्रत्याशित कहां घटित होता है।