Razgovaramo s Tim Sherbakom od kvantnog u pogledu zahtjeva umjetne inteligencije u skladištu i potrebu za upravljanjem podacima koji se može nositi s velikim količinama podataka koji se moraju zadržati dugim periodima
Od
- Antony Adshead,Urednik skladištenja
Objavljeno: 26. marta 2025
U ovom podcastu razgovaramo sa Quantum-ovom menadžeru preduzeća i rešetkama, Tim Sherbaku, o uticajima veštačke inteligencije (AI) na pohranu podataka, a posebno o poteškoćama pohrane podataka tokom dužeg perioda i vrlo velikim količinama podataka.
Razgovaramo o tehničkim zahtjevima AI mjesta na skladištu, koja bi mogla uključivati potrebu za svejednokom u visoko skalabilnoj arhitekturi i potrebu da se zbilju propusnost preko višestrukih i pojedinačnih tokova.
Također razgovaramo o stvarnosti “zauvijek rasta” i potrebi za “zauvijek zadržavanjem” i kako organizacije mogu optimizirati skladištenje da se nose s takvim zahtjevima.
Konkretno, Sherbak spominje upotrebu fer načela – razmatranje, dostupnost, interoperabilnost i ponovni rizik – kao način rukovanja podataka na otvoreni način koji je bio pioniran u naučnoj zajednici.
Konačno, razgovaramo o tome kako dobavljači skladištenja mogu utjecati na AI kako bi pomogli u upravljanju tim ogromnim količinama podataka kroz ogromne i raznolike trgovine podataka.
Koji uticaj obrada AI donosi skladište podataka?
AI obrada ima ogromne zahtjeve za osnovnom pohranom podataka koje imate. Neuronske mreže su izuzetno računski intenzivne. Oni uzimaju veliku količinu podataka.
Osnovni izazov hrani se zvijer. Imamo masivno moćan i skupe kompjuterske klastere koji se temelje na ovim gladnim GPU-om [graphics processing units]. I tako je osnovni izazov, kako nahraniti taj podatke po stopi tako da se stalno trče u punom kapacitetu, samo zbog ogromnog iznosa računarske analize koja je potrebna. Sve je to oko visoke propusnosti i niske kašnjenje.
Prvo, to znači da nam treba nvme [non-volatile memory express] i all-flash rješenja. Drugo, ova rješenja imaju tendenciju da imaju razmjeru arhitekture tako da mogu udobno rasti i komunicirati na razmjeru s performansama, jer ovi klasteri mogu biti vrlo velike. Potreban vam je besprijekoran pristup svim podacima u ovom ravnom prostoru imenu tako da svi komputni klasteri imaju vidljivost svim podacima.
U trenutnom vremenskom okviru postoji puno fokusiranja na RDMA mogućnost – daljinski direktni pristup memoriji – takav da svi serveri i skladišni čvorovi u ovom klasteru imaju direktan pristup i vidljivost u resurse skladištenja. To takođe može optimizirati pristup skladištenju preko klastera. Zatim, na kraju, nije samo zbirna propusnost koja je poželjna, ali i performanse sa jednim tokom koji su vrlo važni.
I tako postoje nove arhitekture koje imaju paralelni klijenti sa podacima koji omogućuju da ne samo da udružite više struja, već i optimizirajte svaki od tih pojedinačnih potoka tako što ćete koristiti više putanja podataka da biste dobili podatke u GPU-u.
Kako organizacije mogu efikasnije upravljanje pohraniti, s obzirom na vjerovatni utjecaj AI na podacima, zadržavanje podataka itd.?
Sa AI ovih dana postoje dva zaista jasna problema.
Jedan je da imamo zauvijek rast podataka i zauvijek imamo zadržavanje podataka koje arhitektiramo u ova rješenja. I tako da postoje ogromne količine podataka iznad i izvan onoga što se izračunava u kontekstu bilo kojeg pojedinca u GPU klasteru.
Da se podaci trebaju dugoročno sačuvati u razumnom trošku.
Postoje rješenja na tržištu koja je učinkovito mješavina bljeskalice, diska i trake, kako biste mogli optimizirati troškove rješenja kao i performanse rješenja tako što ćete imati različite razine i količine u tim tri medija. Radeći to, možete u pravu izvedbene performanse i ekonomičnost rješenja koje koristite za pohranjivanje svih ovih podataka tokom dugoročnog.
Druga stvar koju preporučujem organizacijama koje gledaju kako riješiti ovaj problem zauvijek i zauvijek rastući podaci je da se razmatra koncept upravljanja fer podacima. Ovaj koncept je bio oko šest ili osam godina. Dolazi sa istraživačke strane kuće u organizacijama koje gledaju kako kupiti sva svoja istraživanja, ali ima i stvarni utjecaj i sposobnost pomoći ljudima kao što gledaju na svoje podatke AI.
Sajam je akronim za othvatljivu, procjenjivu, interoperabilnu i za višekratnu upotrebu. Ovo je zaista skup principa [that allow] ti [to] Izmjerite svoje okruženje za upravljanje podacima kako biste bili sigurni da kao što evoluirate infrastrukturu za upravljanje podacima, mjerite ga protiv ovih principa [and] Radite najbolji posao u kojem možete kuriti sve ove podatke. Vrlo je poput uzimanja malo od biblioteke i primjenjujući ga u digitalno doba.
Kako AI može pomoći u pohrani podataka za AI?
To je zaista zanimljivo pitanje.
Mislim da postoje neki osnovni scenariji u kojima su u prodavačima za pohranu prikupljali podatke od svojih kupaca, oni mogu optimizirati operacije i podržati infrastrukturu na svjetskoj osnovi agregirajući iskustvo i scord, da možemo koristiti napredne algoritme za efikasnije kupce.
Ali mislim da je vjerovatno najmoćnija primjena AI i pohrane podataka ovaj koncept samosvjesne skladištenja ili, vjerovatno prikladnijim, samo-svjesni upravljački podaci. I ideja koju možemo katalogizirati bogate metapodatke, podatke o podacima koje čuvamo, a možemo koristiti AI da učinim taj katalog i mapiranje uzoraka.
Kako rastemo ove veće i veće skupove podataka, AI će moći automatski klasificirati i samopucati se skupova podataka na različite načine. To će imati koristi od organizacijama da mogu brže iskoristiti skup podataka koji su na raspolaganju.
Samo razmislite u smislu primjera poput sporta i kako Ai može lako dokumentovati tim ili karijeru igrača samo pregledavajući sav film igrača, članke i druge informacije koje AI može imati pristup. A onda kada se odlični igrač povuče ili pređe, danas bez AI-a, može biti tako luda za ligu ili tima kako bi sakupili sve tolike povijesti snimka i igrača za noćne vijesti ili za dokumentaciju, ali s AI-om imamo više mogućnosti da postignemo brži pristup tim podacima.
Pročitajte više o upravljanju podacima
-
Gartner: Razmatranja kada koristite GPU u datacentre
-
Podcast: Kvantno nedostaje profitabilnost, ali dolazi, kaže generalni direktor
Napisao: Antony Adshead
-
HPE timovi gore sa NVIDIA za Enterprise AI rješenja
Napisao: Joe O’Halloran
-
VMware vsan max: ono što trebate znati
Napisao: Stephen Pritchard