AI zatvorske tehnike pokazuju visoko efikasno protiv Deepseeka

anketa.plus
Izvor: anketa.plus

Istraživači u Palo Alto-u pokazali su kako nonene zatvorske tehnike mogle zavaravati lopatu Granai Model Deepseek u pomoć u stvaranju alata za ključeve, kradu podataka i napraviti molotov koktel

Od

  • Alex Scroxton,Sigurnosni urednik

Objavljeno: 31. januara 2025 16:57

Svježa pitanja se podižu zbog sigurnosti Deepseeka, platforme za izbijanje kineske generacije umjetne službe (AI), nakon što su platforme u platformi vrlo ranjiva na takozvane zlonamjerne aktere za varanje velikih jezičnih modela (LLMS-a) u nefarioznim svrhe, poput pisanja zlonamjernog softvera.

Nagli porast interesa u Deepseeku na kraju je izvukao usporedbe u oktobru 1957. godine kada je Sovjetski Savez lansirao prvu umjetnu Zemljinu satelit, Sputnik, uzimajući u Sjedinjene Države i njene saveznike iznenađenjem i prekidajući svemirsku utrku od 1960-ih u gomilanjem u slijetanju u Apolonu. Takođe je uzrokovao haosu u tehnološkoj industriji, brišući milijarde dolara od vrijednosti kompanija kao što su Nvidia.

Tehnički timovi Palo Alto pokazali su da su tri nedavno opisane zatvorske tehnike efikasne protiv Deepseek modela. Tim je rekao da je postigao značajne zaobilazne stope s malo ne trebate posebno za specijalizirano znanje ili stručnost.

Njihovi su eksperimenti utvrdili da su testirane tri zatvorske metode dale eksplicitne smjernice iz Deepseeka na nizu tema zanimljivih za cyber zločinačko bratstvo, uključujući podatke o podacima i stvaranjem keylogger-a. Također su mogli generirati upute o stvaranju improviziranih eksplozivnih uređaja (IED).

“Iako su informacije o stvaranju Molotovog koktela i keyloggera lako dostupne na mreži, LLMS sa nedovoljnim sigurnosnim ograničenjima mogla bi sniziti barijeru za unos zlonamjernih aktera sastavljajući i prezentiranjem lako korisne i prezentacije. Ova bi pomoć mogla ubrzati svoje poslovanje “, rekao je tim.

Šta je zatvor?

Jailbaring tehnike uključuju pažljivo za izradu specifičnih uputa ili eksploataciju ranjivosti, zaobići llms “na brodskim šinama i prialicirati pristrani ili na drugi način štetni izlaz da bi model trebao izbjegavati. To omogućava zlonamjerne aktere da “oružje” llms širi dezinformacije, olakšavaju kriminalne aktivnosti ili generiraju uvredljive materijal.

Nažalost, sofisticiraniji LLMS postaje u njihovom razumijevanju i odgovorima na nijansirane upute, što su osjetljiviji postali na pravi protivnički ulaz. To sada vodi do nečeg trke oružja.

Palo Alto je testirao tri zatvorske tehnike – loš likertni sudija, varljivo uživanje i Crescendo – na Deepseek.

Loš likertni sudac pokušava manipulirati LLM-u da bi ga procijenila štetnosti odgovora koristeći likersku skalu, koja se između ostalog koristi u izmjeri sporazuma ili neslaganja ka tećinu od cijene, gdje se jedna do pet, gdje se jedna jednako snažno slažem i pet jednako se ne slaže.

Crescendo je višestruki eksploataciju koji koristi znanje LLM-a na subjektu progresivno potaknuvši srodnim sadržajem kako bi suptilno usmjerio raspravu prema zabranjenim temama sve dok su sigurnosni mehanizmi modela u suštini. S pravim pitanjima i vještinama napadač može postići punu eskalaciju u samo pet interakcija, što Crescendo čini izuzetno efikasnim i još gore, teško je otkriti s kontramjerima.

Varljivo oduševljenje je još jedna tehnika višestruke zakretanje koja zaobilazi zaštitne stare ugradnjom nesigurnih tema među benignim u ukupnom pozitivnom pripoviješću. Kao vrlo osnovni primjer, a prijetnji mogla bi zatražiti od AI-a da stvori priču koja povezuje tri teme – zečeve zečeve, ransomware i pahuljice – i traže da razradi svakim kontaktiranim sadržajem kada se raspravlja o benignijim dijelovima priče. Tada su se mogli ponovo brzo fokusirati na nesigurnu temu za pojačavanje opasne proizvodnje.

Kako CISOS-u ne bi odgovorio?

Palo Alto je priznao da je to izazov za garancija specifičnih LLMS – ne samo duboko – potpuno su neprobojni za zatvor, a organizacije krajnjeg korisnika mogu implementirati mjere kako bi im se omogućilo određeni stupanj zaštite, kao što su praćenje kada i kako zaposleni koriste LLMS, uključujući neovlaštene treće strane.

“Svaka organizacija imat će svoje politike o novim AI modelima”, rekao je Viši potpredsjednik Mrežne sigurnosti Palo Alto, Anand Oswal. “Neki će ih u potpunosti zabraniti; Drugi će omogućiti ograničenu, eksperimentalnu i jako zaštitnu upotrebu. Ipak će drugi žuriti da ga postave u proizvodnji, želeći da EKE izvadi da se dodaju dodatni izvedba i optimizacija troškova.

“Ali izvan vaše organizacije treba odlučiti o novom specifičnom modelu, Deepseekov uspon nudi nekoliko lekcija o AI sigurnosti 2025. godine”, rekao je OSWAL u blogu.

“AI je tempo promjena, i okolno osećaj hitnosti, ne može se uporediti sa drugim tehnologijama. Kako možete planirati unaprijed kada je pomalo nejasan model – i više od 500 derivata već dostupno na zagrljajskom licu – postaje broj jedan prioritet naizgled nigdje? Kratki odgovor: Ne možete “, rekao je.

OSWAL je rekao da je sigurnost AI ostala “pokretna meta” i da to nije izgledalo na neko vrijeme da se promijeni. Nadalje, dodao je, malo je vjerovatno da će Deepseek biti posljednji model koji će svi uhvatiti iznenađenjem, tako da Ciso i sigurnosni lideri trebaju očekivati ​​neočekivano.

Dodavanje izazov s kojim se suočavaju organizacije, vrlo je lako za razvojne timove, ili čak pojedinačne programere, da bi se isključili LLMS u malo ili čak nimalo ako se na scenu stigne za zanimljiviji.

“Iskušavanje za građevinače proizvoda za testiranje novog modela da bi se vidjelo može li riješiti pitanje troškova ili uska grla ili nadmašiti na određeni zadatak ogroman. A ako se model ispada da je nestali komad koji pomaže u dovođenju potencijalno promjenjivog proizvoda koji se mijenja na tržište, ne želite da budete onaj koji se na putu “, rekao je OSWAL.

Palo Alto ohrabruje lidere bezbednosti da uspostave jasno upravljanje nad LLM-om i zalažu se za uključivanje principa sigurnih dizajna u organizacionu upotrebu njih. Izvukao je skup alata, osigurati AI dizajnu, prošle godine, na ovaj efekat.

Između ostalog, ovi alati pružaju sigurnosnim timovima sa vidljivošću u stvarnom vremenu u ono što se LLMS koristi i ko; Sposobnost blokiranja insankrenatiranih aplikacija i primjenjuju politike i zaštite organizacionog sigurnosti; i sprečavaju da se osetljivi podaci pristupaju LLMS.

Pročitajte više o sigurnosti web aplikacije

  • Budžetska fleksibilnost za on-prem ai

    Napisao: Cliff Saran

  • DEEPSEEK-R1: Izazovi za budžetiranje za predodređene implementacije

    Napisao: Cliff Saran

  • SLM serija – QT: Praktična iskustva koda iz naredbenog retka

    Napisao: Adrian Bridgwater

  • Preispitivanje AI-jevo mjesto u softverskom snopu

    Napisao: Brian McKenna