Z.ai ने GLM-5.1 का अनावरण किया, जो AI कोडिंग एजेंटों को घंटों तक स्वायत्त रूप से चलने में सक्षम बनाता है -

चीनी AI कंपनी Z.ai ने GLM-5.1 लॉन्च किया है, यह एक ओपन-सोर्स कोडिंग मॉडल है, जिसके बारे में उसका कहना है कि यह एजेंटिक सॉफ्टवेयर इंजीनियरिंग के लिए बनाया गया है। यह रिलीज तब हुई है जब एआई विक्रेता स्वत: पूर्ण-शैली कोडिंग टूल से आगे बढ़कर उन प्रणालियों की ओर बढ़ रहे हैं जो कम मानव इनपुट के साथ लंबी अवधि में सॉफ्टवेयर कार्यों को संभाल सकते हैं।

Z.ai ने कहा कि GLM-5.1 सैकड़ों पुनरावृत्तियों में प्रदर्शन को बनाए रख सकता है, यह तर्क देता है कि यह क्षमता इसे उन मॉडलों से अलग करती है जो लंबे सत्रों में प्रभावशीलता खो देते हैं।

एक उदाहरण के रूप में, कंपनी ने कहा कि GLM-5.1 ने 600 से अधिक पुनरावृत्तियों और 6,000 टूल कॉल पर वेक्टर डेटाबेस अनुकूलन कार्य में सुधार किया, प्रति सेकंड 21,500 प्रश्नों तक पहुंच गया, जो कि एक 50-टर्न सत्र में प्राप्त सर्वोत्तम परिणाम का लगभग छह गुना है।

एक शोध नोट में, Z.ai ने कहा कि GLM-5.1 ने कई सॉफ्टवेयर इंजीनियरिंग बेंचमार्क पर अपने पूर्ववर्ती, GLM-5 से बेहतर प्रदर्शन किया और रेपो जेनरेशन, टर्मिनल-आधारित समस्या समाधान और बार-बार कोड अनुकूलन में विशेष ताकत दिखाई। कंपनी ने कहा कि मॉडल ने एसडब्ल्यूई-बेंच प्रो पर 58.4 स्कोर किया, जबकि जीएलएम-5 के लिए 55.1 था, और उस बेंचमार्क पर ओपनएआई के जीपीटी-5.4, एंथ्रोपिक के ओपस 4.6 और Google के जेमिनी 3.1 प्रो के लिए सूचीबद्ध स्कोर से ऊपर था।

कंपनी ने कहा कि जीएलएम-5.1 को एमआईटी लाइसेंस के तहत जारी किया गया है और यह इसके डेवलपर प्लेटफॉर्म के माध्यम से उपलब्ध है, स्थानीय तैनाती के लिए मॉडल वेट भी प्रकाशित किया गया है। कि हो सकता है उद्यमों से अपील ऐसे उपकरण कैसे तैनात किए जाते हैं, इस पर अधिक नियंत्रण की तलाश है।

लंबे समय तक चलने वाले कोडिंग एजेंट

Z.ai का कहना है कि विस्तारित सत्रों में प्रभावशीलता खो देने वाले मॉडलों की तुलना में लंबे समय तक चलने वाला प्रदर्शन कंपनी के लिए एक महत्वपूर्ण अंतर है।

विश्लेषकों का कहना है कि ऐसा इसलिए है क्योंकि कई मौजूदा मॉडल अपेक्षाकृत कम संख्या में घुमावों के बाद भी स्थिर या बहाव में हैं, जिससे विस्तारित, बहु-चरण सॉफ़्टवेयर कार्यों पर उनकी उपयोगिता सीमित हो जाती है।

पारीख जैनपारीख कंसल्टिंग के सीईओ ने कहा कि उद्योग अब उन उपकरणों से आगे बढ़ रहा है जो संकेतों का जवाब दे सकते हैं और ऐसे सिस्टम की ओर बढ़ रहे हैं जो कम पर्यवेक्षण के साथ लंबे समय तक काम कर सकते हैं।

जैन ने कहा, सवाल अब यह नहीं है, “मैं इस एआई से क्या पूछ सकता हूं?” लेकिन, “मैं इसे अगले आठ घंटों के लिए क्या नियुक्त कर सकता हूँ?”

उद्यमों के लिए, सैकड़ों प्रयोग चलाने और कोड प्रोफाइल करने के बाद, सुबह में एक एजेंट को टिकट आवंटित करने और दिन के अंत तक एक अनुकूलित समाधान प्राप्त करने की संभावना बढ़ जाती है।

“यह क्षमता बड़े रिफैक्टर्स, माइग्रेशन प्रोग्राम और निरंतर घटना समाधान जैसी वास्तविक जरूरतों के अनुरूप है,” ने कहा चार्ली दाईफॉरेस्टर में वीपी और प्रमुख विश्लेषक। “इससे पता चलता है कि लंबे समय तक चलने वाले स्वायत्त एजेंट अधिक व्यावहारिक होते जा रहे हैं, बशर्ते उद्यम जोखिम प्रबंधन के लिए प्रशासन, निगरानी और वृद्धि तंत्र में परत बनाएं।”

ओपन-सोर्स अपील बढ़ती है

एमआईटी लाइसेंस के तहत जीएलएम-5.1 की रिलीज महत्वपूर्ण हो सकती है, खासकर विनियमित या सुरक्षा-संवेदनशील क्षेत्रों की कंपनियों के लिए।

जैन ने कहा, “यह चार प्रमुख तरीकों से मायने रखता है।” “पहला, लागत। मूल्य निर्धारण प्रीमियम मॉडलों की तुलना में बहुत कम है, और स्व-होस्टिंग कंपनियों को प्रति उपयोग भुगतान करने के बजाय खर्चों को नियंत्रित करने देती है। दूसरा, डेटा प्रशासन। संवेदनशील कोड और डेटा को बाहरी एपीआई को नहीं भेजना पड़ता है, जो वित्त, स्वास्थ्य सेवा और रक्षा जैसे क्षेत्रों में महत्वपूर्ण है। तीसरा, अनुकूलन। कंपनियां बिना किसी प्रतिबंध के मॉडल को अपने स्वयं के कोडबेस और आंतरिक टूल में अनुकूलित कर सकती हैं।”

जैन के अनुसार चौथा कारक भू-राजनीतिक जोखिम है। हालाँकि यह मॉडल खुला स्रोत है, फिर भी चीनी बुनियादी ढांचे और संस्थाओं से इसके संबंध कुछ अमेरिकी कंपनियों के लिए अनुपालन संबंधी चिंताएँ पैदा कर सकते हैं।

दाई ने कहा कि एमआईटी लाइसेंस कंपनियों के लिए आंतरिक आवश्यकताओं और शासन नीतियों के अनुरूप मॉडल को अपने सिस्टम पर चलाना आसान बनाता है। दाई ने कहा, “कई खरीदारों के लिए, यह GLM‑5.1 को वाणिज्यिक मॉडल के साथ-साथ एक व्यवहार्य रणनीतिक विकल्प बनाता है, खासकर जहां नियामक बाधाएं, आईपी संवेदनशीलता, या दीर्घकालिक प्लेटफ़ॉर्म नियंत्रण सबसे अधिक मायने रखता है।”

बेंचमार्क विश्वसनीयता

Z.ai ने तीन बेंचमार्क का हवाला दिया: SWE-बेंच प्रो, जो जटिल सॉफ्टवेयर इंजीनियरिंग कार्यों का परीक्षण करता है; NL2Repo, जो रिपॉजिटरी जेनरेशन को मापता है; और टर्मिनल-बेंच 2.0, जो वास्तविक दुनिया के टर्मिनल-आधारित समस्या समाधान का मूल्यांकन करता है।

“ये बेंचमार्क कोडिंग एजेंटों की उन्नत कोडिंग क्षमताओं का परीक्षण करने के लिए डिज़ाइन किए गए हैं, इसलिए उन बेंचमार्क को शीर्ष पर रखना मजबूत कोडिंग प्रदर्शन को दर्शाता है, जैसे योजना-से-निष्पादन में विश्वसनीयता, कम त्वरित पुनर्कार्य और तेज़ डिलीवरी,” कहा। लियान जे सुओमडिया के मुख्य विश्लेषक। “हालांकि, वे अभी भी विशिष्ट उद्यम वास्तविकताओं से अलग हैं।”

सु ने कहा कि सार्वजनिक बेंचमार्क अभी भी मालिकाना कोडबेस, लीगेसी सिस्टम और कोड समीक्षा वर्कफ़्लो की गड़बड़ी को पकड़ नहीं पाते हैं। उन्होंने कहा कि बेंचमार्क परिणाम नियंत्रित सेटिंग्स से आते हैं जो उत्पादन से भिन्न होते हैं, हालांकि अंतर कम हो रहा है क्योंकि अधिक टीमें एजेंटिक सेटअप अपनाती हैं।