Skladištenje je ključ za uspješne projekte umjetne inteligencije

anketa.plus
Izvor: anketa.plus

Provajderi u oblaku hiperskalera planiraju potrošiti milijardu dolara na hardver optimiziran za umjetnu inteligenciju (AI) do 2028. godine, prema istraživaču tržišta Dell’Oro.

U međuvremenu, preduzeća mnogo troše na AI, a planovi za AI projekte podstiču rekordnu potrošnju na hardver centara podataka u 2024. U Aziji, IDC je otkrio da 100 najboljih kompanija u regionu planira potrošiti 50% svog IT budžeta na AI.

Uprkos svemu tome, ne radi se samo o bacanju novca na AI.

I mnogi projekti AI propadaju.

Gartner je, na primjer, izvijestio da se skoro trećina AI projekata odustaje nakon neuspjeha da postigne bilo kakvu poslovnu vrijednost – i ima još sumornija predviđanja za agentsku AI.

Dakle, kako organizacije osiguravaju najbolje moguće šanse za uspjeh za AI projekte i kako procjenjuju prostor za skladištenje potreban za podršku AI?

Šta AI obrada zahtijeva od skladišta?

Pogledajmo prvo AI i zahtjeve koje postavlja pred računanje i skladištenje.

Uopšteno govoreći, AI obrada spada u dvije kategorije.

To su obuka, kada se prepoznavanje generiše iz skupa podataka modela, uz različite stepene ljudskog nadzora; i zaključivanje, u kojem se obučeni model stavlja u rad na skupovima podataka iz stvarnog svijeta.

Međutim, komponente uspješnog AI projekta počinju mnogo prije obuke.

Ovdje govorimo o prikupljanju i pripremi podataka, i sa skupovima podataka koji se po prirodi mogu jako razlikovati. Oni mogu uključivati ​​sigurnosne kopije, nestrukturirane podatke, strukturirane podatke i podatke kurirane u skladište podataka. Podaci se mogu čuvati tokom dugog perioda i pripremati za obuku AI u dugotrajnom i promišljenom procesu, ili mogu biti potrebni brzo za potrebe koje su bile neočekivane.

Drugim riječima, podaci za AI mogu imati različite oblike i proizvesti nepredvidive zahtjeve u pogledu pristupa.

Drugim riječima, AI je veoma gladan u smislu resursa.

Proždrljivost grafičkih procesorskih jedinica (GPU) je dobro poznata, ali vrijedi ponoviti. Tako, na primjer, kada je Meta obučila svoj open source Llama 3.1 model velikog jezika (LLM), prijavljeno je da je za to trebalo oko 40 miliona GPU sati na 16.000 GPU-a. Vratit ćemo se na ono što to znači za skladištenje u nastavku.

Veliki dio ovoga je zato što AI koristi vektorizirane podatke. Jednostavnije rečeno, kada se obučava model, atributi skupa podataka na kojem se obučava se prevode u vektorizovane – visokodimenzionalne – podatke.

To znači da se podaci – recimo brojne karakteristike skupa podataka slike – konvertuju u uređeni skup tačaka podataka na više osa tako da se mogu porediti, izračunati njihova blizina jedna drugoj i njihova sličnost ili na drugi način odrediti.

Rezultat je da vektorske baze podataka često bilježe značajan rast u veličini skupa podataka u odnosu na izvorne podatke, čak 10 puta moguće. To sve mora biti pohranjeno negdje.

Zatim postoji česta kontrolna tačka kako bi se omogućio oporavak od kvarova, da bi se mogao vratiti na prethodne verzije modela ako je potrebno podešavanje rezultata i da bi se mogla demonstrirati transparentnost u obuci u svrhu usklađenosti. Veličina kontrolne tačke može varirati u zavisnosti od veličine modela i broja potrebnih kontrolnih tačaka, ali će verovatno dodati značajan volumen podataka zahtevima za kapacitet skladištenja.

Zatim postoji proširena generacija pri preuzimanju (RAG), koja dopunjava model internim podacima iz organizacije, relevantnim za specifičnu industrijsku vertikalu ili akademsku specijalizaciju, na primjer. Ovdje opet, RAG podaci zavise od vektorizacije skupa podataka kako bi se omogućilo njegovo integriranje u cjelokupnu arhitekturu.

Da bi se maksimizirale šanse za uspjeh AI, organizacije moraju osigurati da imaju kapacitet za pohranjivanje podataka potrebnih za AI obuku i izlaza koji iz toga proizlaze, ali i da je skladištenje optimizirano tako da se energija može sačuvati za obradu podataka umjesto da je zadržava u nizovima za skladištenje.

Sve ovo dolazi prije nego što se AI modeli koriste u proizvodnji.

Slijedi zaključak, koji je proizvodni kraj AI kada model koristi podatke koje ranije nije vidio da bi izveo zaključke ili pružio uvid.

Zaključak je mnogo manje gladan resursa, posebno u obradi, ali rezultati se ipak moraju pohraniti.

U međuvremenu, dok se podaci moraju zadržati radi obuke i zaključivanja, također moramo uzeti u obzir profil upotrebe energije u slučajevima korištenja AI.

I taj profil je značajan. Neki izvori kažu da obrada umjetne inteligencije zahtijeva 30 puta više energije za rad od tradicionalnog softvera orijentiranog na zadatke, te da su energetski zahtjevi centara podataka postavljeni na više nego udvostručiti do 2030. godine.

Niže na nivou rack-a, izvještaji pokazuju da je upotreba kilovata (kW) po raku skočila sa jednocifrenih brojeva ili tinejdžera na 100 kW. To je ogroman skok i to je zbog prirode GPU-a koji su gladni energije tokom treninga.

Ovdje se podrazumijeva da svaki vat dodijeljen skladištu smanjuje broj GPU-a koji se mogu napajati u AI klasteru.

Kakvu vrstu skladišta je potrebna AI?

Zadatak pohrane podataka u AI je održavati opskrbu podacima GPU-ima kako bi se osiguralo da se oni optimalno koriste. Skladište također mora imati kapacitet da zadrži velike količine podataka kojima se može brzo pristupiti. Brz pristup je uslov za napajanje GPU-a, ali i za osiguranje da organizacija može brzo ispitati nove skupove podataka.

To više nego vjerovatno znači flash memoriju za brzi pristup i malu latenciju. Kapacitet će očigledno varirati u zavisnosti od obima posla, ali stotine terabajta, čak i petabajta, moguće su.

Fleš sa četiri nivoa ćelija visoke gustine (QLC) pojavio se kao jak kandidat za skladištenje opšte namene, uključujući, u nekim slučajevima, skupove podataka koji se mogu smatrati „sekundarnim“, kao što su rezervni podaci. Upotreba QLC-a znači da kupci mogu pohraniti podatke na flash memoriju po nižoj cijeni. Nije tako nizak kao disk koji se vrti, ali QLC dolazi sa mogućnošću mnogo bržeg pristupa podacima za AI radna opterećenja.

U nekim slučajevima, dobavljači skladišta nude pakete AI infrastrukture certificirane za rad s Nvidia compute-om, a oni dolaze sa pohranom optimiziranom za AI radna opterećenja, kao i RAG cjevovodima koji koriste Nvidia mikroservise.

Oblak se takođe često koristi za AI radna opterećenja, tako da treba procijeniti integraciju dobavljača skladišta sa skladištem u oblaku. Čuvanje podataka u oblaku također donosi element prenosivosti, s tim da se podaci mogu premjestiti bliže lokaciji za obradu.

AI projekti često počinju u oblaku zbog mogućnosti korištenja resursa za obradu na dodir. Kasnije će projekat započeti na licu mesta možda morati da se prebaci u oblak, pa potražite provajdere koji mogu da ponude besprekorne veze i homogenost okruženja između data centra i skladištenja u oblaku.

Za uspjeh AI potrebna je odgovarajuća infrastruktura

Možemo zaključiti da je za uspjeh u AI na nivou preduzeća potrebno više od samo posjedovanja pravih vještina i resursa centra podataka.

AI je izuzetno gladan u pohranjivanju podataka i korištenju energije. Dakle, kako bi se maksimizirale šanse za uspjeh, organizacije moraju osigurati da imaju kapacitet za pohranjivanje podataka potrebnih za AI obuku i izlaze koji iz toga proizlaze, ali i da je skladištenje optimizirano tako da se energija može sačuvati za obradu podataka umjesto da je zadržava u nizovima za pohranu.

Kao što smo videli, često će biti fleš memorija – a posebno QLC fleš – koji nudi brz pristup, gustinu i energetsku efikasnost koji su potrebni za pružanje najboljih šansi za uspeh.