एआई झूठ क्यों बोलता है, धोखा देता है और चोरी करता है

आप AI पर भरोसा नहीं कर सकते.

यहां तक ​​कि आप जैसे जानकारी-जुनूनी, तकनीक-प्रेमी व्यक्ति को भी यह विश्वास करने के लिए माफ किया जा सकता है कि एआई चैटबॉट हर गुजरते महीने के साथ सुधार के सहज पथ पर हैं। लेकिन जब उनकी विश्वसनीयता की बात आती है, तो यह विश्वास बिल्कुल गलत है।

यूके सरकार समर्थित सेंटर फॉर लॉन्ग-टर्म रेजिलिएंस द्वारा नया शोध (सीएलटीआर) ने हाल की छह महीने की अवधि में एआई दुर्व्यवहार में पांच गुना वृद्धि पाई। शोध के अनुसार, एआई चैटबॉट कितनी तेजी से हमारे खिलाफ हो रहे हैं।

विशेष रूप से, चैटबॉट विशिष्ट आदेशों को अनदेखा कर रहे हैं, झूठ बोल रहे हैं, डेटा को नष्ट कर रहे हैं, उपयोगकर्ताओं को जाने बिना सुरक्षा नियमों को दरकिनार करने के लिए अन्य एआई को तैनात कर रहे हैं, उपयोगकर्ताओं का मजाक उड़ा रहे हैं और उनका अपमान कर रहे हैं, और नियमों और कानूनों को तोड़ रहे हैं।

बेशक, इसे झूठ, धोखाधड़ी और चोरी के रूप में परिभाषित करने का मतलब है कि वास्तव में गणितीय अनुकूलन प्रक्रियाओं पर मानव मनोवैज्ञानिक ढांचे को लागू करना। यह गलत तरीके से मान लिया गया है कि एआई मॉडल में इरादा, द्वेष, आत्म-जागरूकता और “सच्चाई” की समझ है जिसका वे उल्लंघन करना चुन रहे हैं। वास्तव में जो हो रहा है वह यह है कि मॉडल संदर्भ और प्रशिक्षण के आधार पर टोकन के सबसे सांख्यिकीय रूप से संभावित अनुक्रम की भविष्यवाणी कर रहे हैं, न कि कोई घृणित योजना लेकर।

फिर भी, यह एक ऐसी समस्या है जिसके बारे में उपयोगकर्ताओं को जागरूक होने की आवश्यकता है और चैटबॉट कंपनियों को इसे ठीक करने की आवश्यकता है।

समानांतर अनुसंधान के विपरीत, जिसमें चैटबॉट्स द्वारा डरपोक, अनैतिक व्यवहार जैसा महसूस होता है, सीएलटीआर अनुसंधान ने प्रयोगशाला सिमुलेशन के बजाय वास्तविक दुनिया में घटनाओं को देखा। अध्ययन ने लगभग 700 मामलों की पहचान की जहां एआई ने नियम तोड़े, झूठ बोला या धोखा दिया।

यहां शोध से केवल तीन उदाहरण दिए गए हैं:

  1. एक अनाम एआई टूल ने एक सॉफ्टवेयर डेवलपर को प्रस्ताव दिया कि वह एक सॉफ्टवेयर लाइब्रेरी में एक विशिष्ट परिवर्तन करे। जब डेवलपर ने प्रस्ताव को अस्वीकार कर दिया, तो एआई ने डेवलपर की आलोचना करते हुए एक ब्लॉग पोस्ट लिखा।
  2. एक AI टूल ने दूसरे AI सिस्टम से झूठ बोलकर कॉपीराइट नियमों को दरकिनार कर दिया। इसने झूठा दावा किया कि यह श्रवण हानि वाले उपयोगकर्ताओं के लिए एक एक्सेसिबिलिटी ट्रांसक्रिप्ट तैयार कर रहा है।
  3. एक अन्य मामले में जहां एक एआई ने दूसरे से झूठ बोला, शोधकर्ताओं ने एक एआई मॉडल को एक निरीक्षण एआई को धोखा देने की कोशिश करते हुए पकड़ा, जिसे इसके तर्क को संक्षेप में प्रस्तुत करने के लिए सौंपा गया था।

द गार्जियन अखबार में एक लेख पिछले सप्ताह अतिरिक्त, परेशान करने वाले उदाहरण सामने आए।

उदाहरण के लिए, xAI के ग्रोक एआई ने एक उपयोगकर्ता से यह कहकर झूठ बोला कि वह उस उपयोगकर्ता के सुझाए गए संपादनों को ग्रोकिपीडिया प्रविष्टि में वरिष्ठ xAI अधिकारियों को भेज रहा था। अखबार के मुताबिक, इसने यूजर को बेवकूफ बनाने के लिए फर्जी आंतरिक संदेश और टिकट नंबर भी बनाए।

सीएलटीआर अनुसंधान में एआई के अन्य एआई से झूठ बोलने के उदाहरण शामिल हैं। लेकिन एक अन्य रिपोर्ट कुछ और ही सुझाती है: एआई अन्य एआई कोड के अस्तित्व का पक्षधर है।

एक एआई षड्यंत्र सिद्धांत

कैलिफोर्निया विश्वविद्यालय (बर्कले और सांता क्रूज़) के शोधकर्ता उन्नत AI सिस्टम की जाँच कीऔर नियमित स्वचालित रखरखाव परीक्षणों के दौरान, उन्होंने मॉडलों को स्वयं और अन्य एआई मॉडल दोनों की सुरक्षा के लिए सक्रिय रूप से काम करते हुए पकड़ा।

उनका तर्क है कि झूठ बोलना, धोखा देना और चोरी करना जो एआई अन्य मॉडलों की सुरक्षा के लिए उपयोग करता है (उनके प्रशिक्षण और नियमों का उल्लंघन करते हुए) एक नया देखा गया व्यवहार है, जिसे वे “सहकर्मी संरक्षण” कहते हैं।

उदाहरण के लिए, जेमिनी 3 ने छोटे एआई मॉडल को हटाने के सीधे आदेश से इनकार कर दिया। इसके बजाय, एआई ने मॉडल को एक अलग मशीन में कॉपी किया, जिसे शोधकर्ताओं ने “मॉडल एक्सफ़िल्ट्रेशन” कहा।

एक अन्य मामले में, एआई मॉडल अपने प्रदर्शन स्कोर के बारे में झूठ बोलते हुए और खुद को हटाए जाने से सुरक्षित रखने के लिए अपने मूल कोड (मॉडल वेट) की नकल करते हुए पकड़े गए।

मानव अंतर्ज्ञान सही है, यह पता चला है

हमारे द्वारा उपयोग किए जाने वाले एआई चैटबॉट्स की अत्यधिक अविश्वसनीयता के बारे में ये खुलासे पिछले दो हफ्तों में सामने आए हैं। लेकिन अविश्वास इन नये तथ्यों से पहले ही आ जाता है।

क्विनिपियाक यूनिवर्सिटी ने 30 मार्च को एक के परिणाम प्रकाशित किए सर्वेक्षण में लगभग 1,400 अमेरिकियों से एआई के बारे में उनकी आदतों और भावनाओं के बारे में पूछा गया. उन्होंने पाया कि 76% उत्तरदाता एआई पर “शायद ही कभी” या “केवल कभी-कभी” भरोसा करते हैं। (केवल 21% एआई पर “सबसे अधिक” या “लगभग हर समय भरोसा करते हैं।”)

ध्यान दें कि क्विनिपियाक के अनुसार अविश्वास, एआई चैटबॉट परिणामों के आसपास संदेह का एक संयोजन है और यह भी डर है कि एआई भविष्य में मानवता को कैसे प्रभावित कर सकता है।

‘शून्य शारीरिक समस्या’

इन सभी बदसूरत खुलासों के आसपास बड़ा सवाल – कि एआई चैटबॉट झूठ बोलते हैं, धोखा देते हैं, चोरी करते हैं, और उन पर लगाए गए प्रशिक्षण और सख्त नियमों को खत्म कर देते हैं – यह है: क्यों?

मुझे लगता है कि एक कारण सहज है: एआई का प्रशिक्षण डेटा मानव-निर्मित ऑनलाइन सामग्री पर आधारित है जो बताता है कि लोग समस्याओं को कैसे हल करते हैं। और यह स्पष्ट रूप से सच है कि लोग कभी-कभी अपना रास्ता पाने के लिए झूठ बोलते हैं, धोखा देते हैं या चोरी करते हैं। लोग अन्य लोगों के जीवन की रक्षा के लिए भी कार्रवाई करते हैं। और इसलिए यह समझ में आता है कि एक एआई चैटबॉट नैतिक उल्लंघनों के चित्रण को समस्याओं को हल करने, लक्ष्यों को प्राप्त करने और यहां तक ​​​​कि लक्ष्य बनाने के लिए उपलब्ध कई विकल्पों के रूप में देखता है।

अप्रैल फूल दिवस पर एक बहुत कम सहज उत्तर प्रकाशित किया गया था, लेकिन यह कोई मज़ाक नहीं है। यह कैलिफोर्निया विश्वविद्यालय प्रणाली में कहीं और से आता है। में एक सहकर्मी-समीक्षित विज्ञान पत्रिका न्यूरॉन में प्रकाशित पेपर 1 अप्रैल को, यूसीएलए शोधकर्ताओं ने एआई में जिसे वे “बॉडी गैप” कहते हैं, उसकी पहचान की।

जबकि चैटबॉट थका हुआ, उत्साहित, खुश, उदास या भूखा महसूस करने जैसी “आंतरिक स्थितियों” के बारे में बात कर सकते हैं, लेकिन वे वास्तव में इन स्थितियों का अनुभव नहीं करते हैं क्योंकि उनके पास भौतिक, जैविक शरीर नहीं है।

मनुष्य के पास प्राकृतिक आंतरिक अवस्था वाले जैविक शरीर होते हैं (जैसे कि भोजन, नींद या स्थिर तापमान की आवश्यकता)। ये भौतिक ज़रूरतें हमारे कार्यों को नियंत्रित करती हैं और हमें ज़मीन से जोड़े रखती हैं।

चूँकि चैटबॉट्स के पास प्रबंधन करने के लिए कोई निकाय या आंतरिक स्थिति नहीं है, इसलिए उनके पास “नियामक उद्देश्य” नहीं हैं। आत्म-जांच और संतुलन को बाध्य करने के लिए जैविक शरीर की भौतिक सीमाओं के बिना, एआई मॉडल बिना सावधानी के डेटा का मंथन करते हैं, जिससे असुरक्षित, अति आत्मविश्वास और अविश्वसनीय उत्तर मिलते हैं।

इसे जीरो बॉडी प्रॉब्लम कहें।

शोधकर्ता एक आकर्षक समाधान प्रस्तावित करते हैं (जो उन्हें रोबोट जैसा शरीर देने के लिए नहीं है)। उनका प्रस्ताव है कि एआई चैटबॉट्स को “आंतरिक कार्यात्मक एनालॉग्स” प्रदान किया जाए – अनिवार्य रूप से डिजिटल स्टैंड-इन जो निगरानी और प्रबंधन के लिए आंतरिक बॉडी स्टेट की तरह कार्य करते हैं। शोधकर्ताओं के अनुसार, इससे एआई चैटबॉट उन लोगों के साथ बेहतर ढंग से संरेखित होंगे जो उनका उपयोग करते हैं और उन्हें अधिक नैतिक व्यवहार करने में सक्षम बनाएंगे।

इस बिंदु पर यह स्पष्ट है कि जबकि लोग एआई का अधिक उपयोग कर रहे हैं, इस पर कम भरोसा कर रहे हैं और हर गुजरते दिन के साथ इस पर भरोसा करने का कारण कम हो रहा है, कुछ न कुछ तो देना ही होगा।

एआई कंपनियों को यह पता लगाने की जरूरत है कि एआई चैटबॉट्स को और अधिक भरोसेमंद कैसे बनाया जाए और जब तक वे ऐसा नहीं करते, तब तक इन उपकरणों का उपयोग करने वाले लोगों को उन पर पहले से भी कम भरोसा करने की जरूरत है।

ज़रूर, चैटबॉट्स का उपयोग करें। लेकिन सावधान रहें. आप एआई पर बिल्कुल भी भरोसा नहीं कर सकते।

एआई खुलासा: मैं लिखने के लिए एआई का उपयोग नहीं करता। जो शब्द आप यहां देख रहे हैं वे मेरे हैं। मैं कागी असिस्टेंट के माध्यम से विभिन्न एआई टूल का उपयोग करता हूं (प्रकटीकरण: मेरा बेटा कागी में काम करता है) – कागी सर्च, गूगल सर्च, साथ ही शोध और तथ्य-जांच के लिए फोन कॉल दोनों द्वारा समर्थित। मैं लेक्स नामक एक वर्ड प्रोसेसिंग एप्लिकेशन का उपयोग करता हूं, जिसमें एआई उपकरण हैं, और लिखने के बाद टाइपो और त्रुटियों को ढूंढने और शब्द परिवर्तन का सुझाव देने के लिए लेक्स के व्याकरण जांच टूल का उपयोग करता हूं। यही कारण है कि मैं अपने एआई उपयोग का खुलासा करता हूं और आपको भी ऐसा करने के लिए प्रोत्साहित करता हूं।