Intervju: Čisto skladištenje na AI podatkovnom izazovu izvan hardvera

anketa.plus
Izvor: anketa.plus

Za uspješno rješavanje radnog opterećenja umjetne inteligencije (AI) nije samo bacanje izračunavanja i skladištenja u njemu. Sigurno, potrebna vam je dovoljno snage za obradu i spremište da biste ga opskrbili podacima po ispravnoj brzini, ali prije nego što bilo koje takve operacije može postići uspjeh, ključno je osigurati kvalitetu podataka koji se koriste u AI obuci.

To je osnovna poruka iz par bote, potpredsjednika AI infrastrukture u čistom skladištenju, koju smo uhvatili prošle sedmice na ubrzanom događaju kompanije u Las Vegasu.

Botes je naglasio potrebu za preduzećima koja se bave AI-om da uhvate, organizuju, pripremaju i usklade podatke. To je zato što podaci često mogu biti nepotpuni ili neprimjereni pitanjima koja pokušava odgovoriti.

Razgovarali smo s Botes o podatkovnom inženjerstvu, upravljanju podacima, korištenju podataka jezera podataka i osiguravajući sigurnu skupljače podataka o potrebi koje se bave AI.

Što čisti prikaz pohrane kao ključni nadolazeći ili pojačani izazovi za pohranu u AI-u?

Mislim da je teško stvoriti sustave koji rješavaju probleme pomoću AI-a bez zaista dobrog načina organiziranja podataka, hvatanja podataka, a zatim ga pripremaju i usklađuju ga u elemente za obradu, GPU-u [graphics processing units]to ih čini dovoljno pristupnim podacima.

Ono posebno te izazove otežava?

Počet ću s najočitijom: Kako mogu dobiti GPU-u za konzumiranje podataka? GPU-ovi su nevjerojatno moćni, a voze ogromnu količinu propusne širine.

U GPU-u je teško hraniti podatke na tempu koji ga konzumiramo. To se počinje sve više riješiti, posebno na visokom kraju. Ali za redovnu vrstu preduzeća, to su nove vrste sistema i nove vrste vještina koje moraju implementirati.

“Kako se vaši podaci poboljšavaju, jer se vaši uvidi mijenjaju, vaši podaci se moraju promijeniti s njom. Dakle, vaš model se mora razviti s njim. To postaje kontinuirani proces”

Po kutijama, čistom skladištenju

To nije težak problem na naučnoj strani, to je težak problem u operacijama, jer to nisu mišići koji su dugo postojali u preduzeću.

Sljedeći dio tog problema je: Kako pripremiti svoje podatke? Kako da ga sakupim? Kako mogu znati gdje imam ispravne podatke? Kako da to procijenim? Kako da ga pratim? Kako da se nanesem postrojenja da vidim da je ovaj model obučen sa ovim skupom podataka? Kako mogu znati da ima kompletan skup podataka? To je vrlo težak problem.

Da li je to problem koji varira između kupca i radnog opterećenja? Jer mogu zamisliti da bi se moglo znati, samo ekspertize koja boravi u organizaciji, da imate sve potrebne podatke. Ili, u drugoj situaciji, možda je nejasno da li ili ne.

Prilično je teško znati, bez obrazloženja [whether] Imate sve potrebne podatke. Daću vam primer.

Proveo sam više godina izgradnje auto-vožnje automobilom – percepcijskim mrežama, vozačkim sistemima – ali često smo pronašli da automobil nije nastupio i u nekim uvjetima.

Put je skrenuo lijevo i blago uzbrdo, s drugim automobilima oko nje. Zatim smo shvatili da nemamo dovoljno podataka o obuci. Dakle, imajući principijelan način obrazloženja o podacima, obrazloženjem o potpunosti, obrazloženje o rasponu [of data]a da za to mogu imati sve podatke i matematički analizirati, nije disciplina koja je super zajednička izvan visokih kompanija za obuku.

Smatrajući se pitanjima koja se pojavljuju, poteškoće koje mogu nastati pomoću AI opterećenja, kako biste rekli da kupci mogu početi ublažiti ih?

Opći pristup koji preporučujem je da razmislim o vašim podacima inženjerskim procesima. Dakle, partnerujemo sa podatkovnim kompanijama koje rade stvari poput jezera.

Razmislite o: Kako da nanesem jezero na svoj dolazni podaci? Kako da koristim svoj jezero za čišćenje i pripreme? U nekim slučajevima, možda čak i transformirajte i učinite ga spremni za sistem obuke. Počet ću razmišljati o disciplini podataka u svojoj kompaniji i kako da pripremim to da budem spreman za AI?

Šta se sastoji da se podatkovni inženjering ako iznesete u njemu?

Inženjering podataka se obično sastoji od načina dobijanja pristup drugim skupovima podataka koji mogu postojati u korporativnim bazama podataka, u strukturiranim sistemima ili u drugim sustavima imamo i kako mogu dobiti pristup tome? Kako da unem to u srednji oblik koji sam nazela? I kako da transformiram to i odabere podatke iz tih skupova koji mogu biti u različitim spremištima za stvaranje skupa podataka koji predstavlja podatke o kojima želim trenirati.

To je disciplina koju obično pozivamo inženjerstvo podataka. I postaje vrlo različita vještina i vrlo izrazita disciplina.

Kada je u pitanju skladištenje, kako kupci podržavaju podatke o odmora sa skladištem? U kojim oblicima?

Danas, što je uobičajeno imate li Cloud kompanije, koje pružaju baze podataka i za on-um, imamo sistemske kuće.

Radimo s nekoliko njih. Pružamo kompletna rješenja koja uključuju dobavljače na datovima. I mi se sarađujemo s tim.

A onda, naravno, osnovna skladišta koja ga čini brzo i dobro funkcionira. I tako su ključne komponente, rekla, su popularne baze podataka Lakehousea i infrastruktura ispod toga, a zatim ih povezuju u druge sustave za pohranu za trening.

Gledajući podatkovni inženjering, je li zaista jednokratno, jednokratno, jednokratno izazov ili je nešto što je u toku kao organizacije koje se bave Ai-om?

Inženjering podataka nekako je teško zanimanje od skladištenja. Nisu baš ista stvar, već su usko povezani.

Jednom kada počnete koristiti AI, želite snimiti sve nove podatke. Želite li ga pretvoriti i napraviti dio svog AI sistema, bilo da koristite to s krpom [retrieval augmented generation] ili fino podešavanje ili ako ste napredni, izgradite svoj model.

Stalno ćete to povećati i učiniti je bolje. Kako se vaši podaci poboljšavaju, jer se vaši uvidi mijenjaju, vaši podaci se moraju promijeniti s njim. Dakle, vaš se model mora razviti s njim.

To postaje kontinuirani proces.

Morate razmišljati o nekoliko stvari, kao što su loze. Koja je istorija ovih podataka? Šta je nastalo odakle? Šta se konzumira gde? Želite razmisliti, kada ljudi koriste vaš model ili kada interno koristite svoj model. Šta se postavlja pitanje? Koje je pitanje koje se pojavljuje?

I želite pohraniti i koristiti to za osiguranje kvalitete, također za daljnju obuku u budućnosti. To postaje ono što nazivamo ai zamahu podataka. Podaci se neprestano gutaju, konstruiraju, izračunavaju, protumažuju, konstruiraju, konstruiraju.

I taj krug ne prestaje.

Postoji li još nešto što mislite da bi kupci trebali gledati?

Također bi trebali pomisliti, koji su to podaci zaista, što predstavljaju podatke? Ako ovi podaci predstavljaju nešto što promatrate ili nešto što radite, ako imate praznine u podacima, AI će popuniti te praznine. Kada se u pravilu ispune te praznine, nazivamo ga halucinacijom.

Trik je da dobro poznajete svoje podatke da znate gdje postoje praznine. A ako imate praznine, možete li pronaći načine da popunite te praznine? Kada dođete do tog nivoa sofisticiranosti, počinjete imati stvarno impresivan sistem za upotrebu.

Čak i ako započnete sa samom osnovama korištenja usluge u oblaku, započnite snimanjem onoga što šaljete i šta se vraćate. Jer to čini osnovu za vašu disciplinu za upravljanje podacima. A kad koristim termin podatkovni inženjering, između inženjerstva podataka i skladištenja je ta disciplina koja se naziva upravljanje podacima.

Ovo je organizacija podataka, koje želite započeti već prije nego što možete. Jer do trenutka kada se pripremite da učinite nešto izvan samo korištenja usluge, sada imate prvo tijelo podataka za svoje inženjere podataka i za vašu memoriju.

To je ogroman uvid koji želim da svi bi razmislili da rade stvarno brzo.