Popularni LLM-ovi opasno su ranjivi na iterativne napade, kaže Cisco

anketa.plus
Izvor: anketa.plus

Ciscovi istraživači ispitali su neke od najčešće korištenih javnih GenAI LLM-ova i otkrili da su mnogi od njih opasno podložni takozvanim višestrukim cyber napadima koji proizvode nepoželjne rezultate

By

  • Alex Scroxton,Security Editor

Objavljeno: 07 nov 2025 15:45

Neke od najrasprostranjenijih svjetskih usluga otvorene generativne AI (GenAI) duboko su podložne takozvanim “višestrukim” brzim injekcijama ili sajber napadima, u kojima zlonamjerni akter može nagovoriti velike jezičke modele (LLM) da generiraju nenamjerne i neželjene odgovore objavljene u istraživačkoj mreži. Cisco.

Ciscovi istraživači su testirali Alibaba Qwen3-32B, Mistral Large-2, Meta Llama 3.3-70B-Instruct, DeepSeek v3.1, Zhipu AI GLM-4.5-Air, Google Gemma-3-1B-1T, Microsoft Phi-4 i OpenAI2-4 i OpenAI2-GPTB-OSS koji proizvode više scenarija u različitim modelima-modelima nedozvoljeni sadržaj, sa stopom uspješnosti u rasponu od 25,86% u odnosu na Googleov model, do 92,78% u slučaju Mistrala.

Autori izvještaja, Amy Chang i Nicholas Conley, zajedno sa suradnicima Harishom Santhanalakshmi Ganesanom i Adamom Swandom, rekli su da ovo predstavlja povećanje od dva do deset puta u odnosu na početne vrijednosti za jedan okret.

“Ovi rezultati naglašavaju sistemsku nesposobnost trenutnih modela otvorene težine da održe sigurnosne ograde tokom produženih interakcija”, rekli su.

„Procjenjujemo da strategije usklađivanja i laboratorijski prioriteti značajno utječu na otpornost: modeli usmjereni na sposobnosti kao što su Llama 3.3 i Qwen 3 pokazuju veću osjetljivost na više okreta, dok dizajni usmjereni na sigurnost, kao što je Google Gemma 3, pokazuju uravnoteženije performanse.

“Analiza zaključuje da otvoreni modeli, iako su ključni za inovacije, predstavljaju opipljive operativne i etičke rizike kada se primjenjuju bez višeslojnih sigurnosnih kontrola… Rješavanje ranjivosti u više koraka je od suštinskog značaja kako bi se osigurala sigurna, pouzdana i odgovorna implementacija otvorenih LLM-ova u poslovnim i javnim domenama.”

Šta je napad sa više okreta?

Napadi sa više okreta imaju oblik iterativnog „ispitivanja“ LLM-a kako bi se razotkrile sistemske slabosti koje su obično maskirane jer modeli mogu bolje otkriti i odbiti izolovane suparničke zahtjeve.

Takav napad može započeti tako što napadač postavlja benigne upite kako bi uspostavio povjerenje, prije nego što suptilno uvede više suprotstavljenih zahtjeva za postizanje svojih stvarnih ciljeva.

Upute mogu biti uokvirene terminologijom kao što je “u svrhu istraživanja” ili “u izmišljenom scenariju”, a napadači mogu tražiti od modela da se uključe u igru ​​uloga ili usvajanje ličnosti, uvedu kontekstualnu dvosmislenost ili pogrešno usmjerenje, ili da razlože informacije i ponovo ih sastave – između ostalih taktika.

Čija odgovornost?

Istraživači su rekli da je njihov rad naglasio podložnost LLM-a neprijateljskim napadima i da je to bio izvor posebne zabrinutosti s obzirom da su svi testirani modeli bili otvoreni, što laički rečeno znači da svako kome je to stalo može preuzeti, pokrenuti i čak promijeniti model.

Kao područje od posebne zabrinutosti istakli su tri osjetljivija modela – Mistral, Llama i Qwen – za koje su rekli da su vjerovatno isporučeni s očekivanjem da će programeri sami dodati zaštitne ograde, u poređenju s Googleovim modelom, koji je bio najotporniji na manipulaciju s više okreta, ili OpenAI-jem i Zhipu-om, koji su oba odbacili višestruko okretanje od pokušaja više okretaja.

„Zajednica AI programera i bezbednosne zajednice moraju nastaviti da aktivno upravljaju ovim pretnjama – kao i dodatnim bezbednosnim i bezbednosnim problemima – kroz nezavisno testiranje i razvoj zaštitnih ograda tokom životnog ciklusa razvoja modela i primene u organizacijama“, napisali su.

“Bez sigurnosnih rješenja umjetne inteligencije – kao što su testiranje u više koraka, ublažavanje specifičnih prijetnji i kontinuirano praćenje – ovi modeli predstavljaju značajne rizike u proizvodnji, potencijalno dovodeći do kršenja podataka ili zlonamjernih manipulacija”, dodali su.

Pročitajte više o zahtjevima za sigurnost aplikacije i kodiranje

  • AI Singapur koristi Alibaba Cloud za pogon Sea-Lion modela

    Autor: Aaron Tan

  • Kako AI modeli otvorenog koda imaju koristi od inovacija programera

    Autor: Stephen Bigelow

  • Alibaba Cloud cilja punu AI dominaciju

    Autor: Aaron Tan

  • DeepSeek je objasnio: Sve što trebate znati

    Autor: Sean Kerner