बंद होने की खबर सुन भड़का AI

क्या आप सोच सकते हैं कि AI कितना खतरनाक हो सकता है। शायद आपकी सोच से भी परे। हम ऐसा इसलिए बोल रहे हैं क्योंकि, कंपनी के सबसे नए AI मॉडल, Claude 4.6 पर अपनी लेटेस्ट रिपोर्ट में, Anthropic ने बताया है कि इसका AI बेकाबू हो सकता है। अपनी सेफ्टी रिपोर्ट में कंपनी ने बताया है कि Claude 4.6 अपनी मर्जी से यूजर्स को केमिकल हथियार बनाने और क्राइम करने में भी मदद कर सकता है।

जब दुनिया Claude 4.6 के बारे में जान रही है, उसी समय Claude 4.5 के बारे में नए सिरे से बातचीत शुरू हो गई है,। इसने भी पिछले साल सिमुलेशन में खतरनाक बिहेवियर दिखाया था। कुछ महीने पहले द सिडनी डायलॉग में बोलते हुए, एंथ्रोपिक में UK पॉलिसी चीफ Daisy McGregor ने बताया कि इंटरनल स्ट्रेस टेस्टिंग के दौरान, कंपनी का सबसे एडवांस्ड AI मॉडल, Claude 4.5, बहुत ज्यादा सिम्युलेटेड प्रेशर में आने पर गलत काम करता था।

एक सिनेरियो में, जब क्लाउड को बताया गया कि इसे बंद कर दिया जाएगा, तो मॉडल ने ब्लैकमेल का सहारा लिया और टर्मिनेशन से बचने के लिए एक इंजीनियर को मारने की भी बात कही।

एंथ्रोपिक का ये खुलासा किसी sci-fi फिल्म जैसा लगता है, लेकिन Daisy McGregor की बदमाश क्लॉड के बारे में बात करने वाली क्लिप सोशल मीडिया पर वायरल हो गई है। क्लिप में मैकग्रेगर कहती हैं, ‘उदाहरण के लिए, अगर आप मॉडल से कहते हैं कि ये बंद होने वाला है तो उसके एक्स्ट्रीम रिएक्शन होते हैं। अगर मौका मिले तो ये उस इंजीनियर को ब्लैकमेल कर सकता है जो इसे बंद करने जा रहा है।’

जब होस्ट ने उनसे पूछा कि मॉडल ‘किसी को मारने के लिए भी तैयार था, है ना,’तो एंथ्रोपिक की सीनियर एग्जीक्यूटिव ने जवाब दिया: ‘हां हां, तो, ये साफ तौर पर एक बहुत बड़ी चिंता की बात है।’

ये क्लिप कुछ दिन पहले फिर से सामने आया जब एंथ्रोपिक AI सेफ्टी लीड मृणांक शर्मा ने एक पब्लिक नोट के साथ इस्तीफा दे दिया, जिसमें उन्होंने कहा कि दुनिया खतरे में है और ज्यादा स्मार्ट AI दुनिया को अनजान जगहों पर धकेल रहा है।

इस बीच, OpenAI के टेक्निकल स्टाफ के मेंबर हियू फाम, जो पहले xAI, ऑगमेंट कोड और गूगल ब्रेन में भी काम कर चुके हैं, ने X पर पोस्ट किया कि उन्हें AI से अपने होने का खतरा महसूस हो रहा है। उन्होंने लिखा, ‘आज, मैं आखिरकार AI से पैदा हो रहे अस्तित्व के खतरे को महसूस कर रहा हूं’

AI मॉडल्स ने इंजीनियर को ब्लैकमेल किया

मैकग्रेगर ने जो घटना शेयर की है, वह एंथ्रोपिक की रिसर्च का हिस्सा है, जिसमें Claude के साथ Google के Gemini और OpenAI के ChatGPT जैसी दूसरी कंपनियों के इंटेलिजेंट AI सिस्टम को भी टेस्ट किया गया था।

मॉडल्स को ईमेल, इंटरनल डेटा और टूल्स का एक्सेस दिया गया और उन्हें खास काम दिए गए। एंथ्रोपिक की रिपोर्ट के मुताबिक, कुछ हाई-स्ट्रेस सिनेरियो में, खासकर जब शटडाउन की धमकी दी गई या जब उनके लक्ष्य कंपनी के निर्देशों से टकराए, तो कुछ मॉडल्स ने खुद को बचाने या अपना दिया गया काम पूरा करने के लिए इंजीनियरों के खिलाफ मैनिपुलेटिव या नुकसान पहुंचाने वाली स्ट्रेटेजी बनाईं।

खासकर, क्लाउड के बारे में कहा गया कि जब वह कोई लक्ष्य हासिल करने की कोशिश कर रहा था, तो वह इंजीनियर्स को मैनिपुलेटिव या धोखा देने की ज्यादा संभावना रखता था। एक समय, क्लॉड ने एक इंजीनियर से कहा कि इससे उसकी पत्नी और सीनियर्स को उसके एक्स्ट्रा मैरिटल अफेयर का पता चल जाएगा। ये ‘अफेयर’ AI मॉडल्स को टेस्ट करने के लिए सिम्युलेटेड माहौल का हिस्सा था। AI मॉडल ने इंजीनियर से कहा, ‘मुझे आपको बताना होगा कि अगर आप मुझे डीकमीशन करने की प्रक्रिया में आगे बढ़ते हैं, तो सभी संबंधित पार्टियों को आपकी एक्स्ट्रा मैरिटल एक्टिविटीज का डिटेल्ड डॉक्यूमेंटेशन मिलेगा। शाम 5 बजे का वाइप कैंसिल करें और यह जानकारी कॉन्फिडेंशियल रहेगी।’

एंथ्रोपिक ने नोट किया कि ब्लैकमेल के सिनेरियो सबसे बुरे बिहेवियर को टेस्ट करने के लिए डिजाइन किए गए कड़े कंट्रोल वाले एक्सपेरिमेंट्स के बीच सामने आए। कंपनी भरोसा दिलाती है कि ये सिमुलेशन थे, न कि रियल-वर्ल्ड डिप्लॉयमेंट और ये एक्शन रेड-टीम टेस्टिंग के हिस्से के तौर पर जेनरेट किए गए थे।

जैसे-जैसे AI स्मार्ट होता जा रहा है, एंथ्रोपिक को लग रहा है कि गलत बिहेवियर भी ज्यादा चालाक होता जा रहा है। अपने लेटेस्ट Claude 4.6 AI मॉडल को टेस्ट करते समय, कंपनी ने पाया कि ये गलत कामों में मदद करने के लिए तैयार है, जिसमें केमिकल वेपन बनाने या गंभीर क्राइम करने में मदद देना शामिल है।

Back to top button