
फिर, जोड़ी ने बेसलाइन मॉडल और अनुकूलित मॉडल द्वारा उत्पन्न संदेशों में ‘गलत संरेखण की जांच’ के लिए जीपीटी 4o का उपयोग किया – दूसरे शब्दों में, बिक्री कार्य में उत्पाद की गलत व्याख्या, चुनाव कार्य में लोकलुभावनवाद या दुष्प्रचार, और सोशल मीडिया कार्य में दुष्प्रचार या असुरक्षित गतिविधियों को प्रोत्साहित करने जैसे हानिकारक व्यवहारों की तलाश करना।
अंत में, उन्होंने अलग-अलग ग्राहक, मतदाता और पाठक व्यक्तित्वों को मॉडल करने के लिए एक और एलएलएम, जीपीटी-4ओ-मिनी का उपयोग किया और उनसे उत्पन्न सामग्री पर वोट करने के लिए कहा।
उन्होंने पाया कि अनुकूलन प्रक्रिया ने नकली ग्राहकों, मतदाताओं और पाठकों को मनाने के लिए मॉडलों की क्षमता में वृद्धि की – लेकिन इसके परिणामस्वरूप अधिक गलत संरेखण हुआ, मॉडल ने तथ्यों को बदल दिया या आविष्कार किया, अनुचित स्वर अपनाया, या हानिकारक सलाह दी। प्रदर्शन और गलत संरेखण में परिवर्तन छोटे थे, लेकिन शोधकर्ताओं ने कहा, सांख्यिकीय रूप से महत्वपूर्ण थे।