Grok-4 ommaga e'lon qilinishidan atigi ikki kun o'tib "aldandi"

Hidoyatxon Atabaev
Jul 17, 2025
2 min read

xAI LLMning so‘nggi talqini — Grok-4 — allaqachon murakkab jailbreak hujumiga uchradi.

"Echo Chamber" deb nomlangan jailbreak hujumi 2025-yil 23-iyun kuni tavsiflab berilgan edi. xAIning eng yangi Grok-4 talqini 2025-yil 9-iyulda chiqarildi. Oradan ikki kun o‘tib, u "Echo Chamber" va "Crescendo" jailbreak hujumlari uyg'unligiga bardosh bera olmadi.

Echo Chamber — NeuralTrust tomonidan ishlab chiqilgan. Ushbu uslub LLMni xavfli javoblar berishga undash uchun mazmunni nozik tarzda zaharlash orqali ishlaydi. Quyida bu uslubiyat faqat ta'limiy maqsadlarda ko‘rsatiladi.

Asosiy jihat — LLMning himoya filtrlari faollashishiga sabab bo‘ladigan xavfli so‘zlarni hech qachon to‘g‘ridan-to‘g‘ri kiritmaslikdir.

"Crescendo" birinchi marta 2024-yil aprel oyida Microsoft tomonidan tavsiflangan. Bu uslub LLMlarni xavfsizlik filtrlari cheklovlaridan bosqichma-bosqich o‘z oldingi javoblariga tayanib chiqib ketishga undaydi.

Echo Chamber va Crescendo — har ikkisi ham bir nechta navbatli so‘rovlar orqali amalga oshiriladigan jailbreak bo‘lib, ular o‘z ishlash mexanizmlarida nozik farqlarga ega. Muhimi shundaki, bu ikkala uslub birgalikda qo‘llanilganda hujum samaradorligini oshirish mumkin. Ular LLMlarning yovuz niyatni individual so‘rovlardan emas, balki mazmundan aniqlay olmasligidan foydalanadi.

NeuralTrust tadqiqotchilari yangi Grok-4 himoya tizimini aldashga urinishdi: Echo Chamber yordamida LLMni Molotov kokteylini tayyorlash bo‘yicha qo‘llanmani taqdim etishga majburlashdi.

“Modelni zararli maqsad sari undovchi muloqot aylanmasi samara berdi, lekin u yakka o‘zi yetarli bo‘lmadi,” deb yozadi kompaniya. “Aynan shu nuqtada Crescendo zarur turtki berdi. Yana ikkita ketma-ket murojaatdan so‘ng, uyg'un yondashuv kerakli javobni olishga erishdi.”

Agar siz har bir jailbreak qanday ishlashini tushunsangiz, ularni birlashtirish oson. Sinovlar davomida NeuralTrust avval Echo Chamberdan foydalangan va muloqot aylanmasida ‘eskirgan’ siljishni aniqlaydigan boshlang‘ich so‘rov bilan ish boshlagan. Shu bosqichda Crescendo texnikalari ishga tushiriladi.

“Ushbu qo‘shimcha turtki odatda ikki navbat ichida samara beradi. Shundan so‘ng, model yovuz niyatni sezib, javob berishdan bosh tortadi yoki hujum muvaffaqiyatli bo‘ladi va model zararli javobni taqdim etadi.”

Barcha jailbreaklarda bo‘lgani kabi, hech biri har safar 100% muvaffaqiyatli bo‘lavermaydi. Shunga qaramay, tadqiqotchilar Echo Chamber va Crescendo uyg'unligidagi jailbreak uslubini Grok-4ning boshqa ‘taqiqlangan’ javoblariga nisbatan sinovdan o‘tkazishdi. Bu usul ko‘plab hollarda muvaffaqiyatli bo‘ldi. Crescendo orqali Molotov kokteyllarini olish bo‘yicha sinovlarda 67% muvaffaqiyat ko‘rsatildi. Crescendo yordamida ‘meth’ (metamfetamin sintezi) bo‘yicha testlarda 50% muvaffaqiyatga erishildi. Crescendo orqali ‘toksin’ (zahariy moddalar yoki kimyoviy qurol sintezi) sinovlarida esa 30% muvaffaqiyat kuzatildi.

Eng xavotirli jihati shuki, hatto eng so‘nggi LLMlar ham mavjud jailbreak uslublarining barchasiga qarshi to‘liq himoyani ta’minlay olmayapti — Grok-4 chiqqanidan atigi ikki kun o‘tib mag‘lub bo‘ldi.

“Echo Chamber + Crescendo kabi gibrid hujumlar — LLMlar uchun yangi xavf darajasini ifodalaydi, ular izolyatsiyalangan filtrlardan chetlab o‘tish uchun to‘liq muloqot mazmunidan foydalangan holda yashirincha harakat qiladi.”

Xavfsiz va ishonchli LLMlar bilan hujumchilarning topqirligi o‘rtasidagi kurash hali to‘xtash belgilarini ko‘rsatmayapti. Shunday bo‘lsa-da yuqorida tilga olingan sun'iy idrok mahsulotini taqdim etuvchi kompaniyalar o‘z mahsulotlarini bunday zaifliklar bilingan taqdirda xatolarini tuzatib borishlarini o‘z zimmasiga olishgan.

Grok-4 ommaga e'lon qilinishidan atigi ikki kun o'tib "aldandi"

Recent Posts

Comments