Podcast: Kako dobiti vrijednost od nestrukturiranih podataka

anketa.plus
Izvor: anketa.plus

U ovom podcastu razgovaramo s osnivačem Nasunija i CTO-om Andresom Rodriguezom o preprekama za postizanje najveće vrijednosti od nestrukturiranih podataka preduzeća, posebno putem metapodataka

By

  • Antony Adshead,Storage Editor

Objavljeno: 23 sep 2025 16:44

Razgovaramo sa osnivačem i glavnim tehnološkim direktorom Nasunija (CTO) Andresom Rodriguezom o karakteristikama koje su potrebne za skladištenje za optimalno korištenje nestrukturiranih podataka u preduzeću, kao io izazovu njihovog obima.

On kaže da je oblak promijenio sve, s modelom rada u oblaku koji pruža nacrt za jedan skup skladišta dostupan s bilo kojeg mjesta.

On takođe kaže da preduzeća moraju da klasifikuju, označe i kuriraju podatke kako bi izgradila bogate metapodatke koji mogu povećati korporativno znanje o podacima i pristup podacima, kao i da im pristupe za veštačku inteligenciju (AI), kao što je preko konektora Model Context Protocol (MCP).

Koja je priroda prepreka za optimalno korišćenje nestrukturiranih podataka u preduzeću?

Stvarno je sve u razmerama. Mislim, ako se vratite na ono što su nestrukturirani podaci, to su svi fajlovi na serverima datoteka, NAS-u [network-attached storage]itd.

Sve je to proizvod rada. Dakle, ako ste arhitektonska firma, to su crteži dizajna. Ako ste proizvodna firma, to su crteži dizajna i simulacije. Sve to završava u fajlovima, u fajl sistemima preduzeća.



A u svakoj organizaciji, pored toga, postoje klasični kancelarijski dokumenti – Excel i PowerPoint i Word dokumenti i PDF-ovi. Oni su generički u svim industrijama. I tako, na kraju dobijete ovu vrstu ogromnog potencijalnog spremišta koje bi se moglo iskopati da bi dodalo vrijednost organizaciji.

Ali izazov je kako mu pristupiti? Kako kontrolirati pristup njemu u isto vrijeme kada mu možete pristupiti? I onda, kako to uključiti u alate koji će vam dati uvid u te podatke? A to učiniti u velikim razmjerima je zaista ogroman izazov.

Dakle, šta kupcima treba od načina na koji se nestrukturirani podaci pohranjuju kako bi iz njih mogli steći što je moguće više uvida?

Prva stvar je da ga ima toliko u organizacijama da ono što se na kraju dešava sa tradicionalnim pristupima jeste da završite sa puno silosa podataka. Znate, podaci se pohranjuju u uređaje, uređaji su posvuda, itd.

Ako se radi o velikoj organizaciji, mogu postojati različite geografske lokacije na kojima se zaposleni nalaze i potreban im je pristup datotekama visokih performansi na tim lokacijama. Tako da na kraju gradite silose za njih.

To bi mogao biti samo kapacitet. Ponestane vam kapaciteta na jednom serveru datoteka, pa postavite još jedan i još jedan, i završite s ovim nevjerovatnim brojem servera datoteka. Dakle, kada gledate da radite stvari koje su vrijedne s podacima, shvatite da je to postalo nemoguće jer se podaci nalaze u toliko različitih silosa i teško je doći do silosa i agregirati ih na bilo koji logičan način.

Oblak je sve to promijenio. Mnoge organizacije, posebno velike organizacije koje su konsolidovale svoje nestrukturirane podatke, svoje podatke iz fajlova, u oblak, shvatile su ovu ogromnu dobit, a to je da su podaci sada konsolidovani u jednom logičkom prostoru koji je beskonačno skalabilan i dostupan na veoma visokim nivoima performansi sa bilo kog mesta u svetu.

Oblak je beskonačan i oblak je svuda. I tako, to je nevjerojatan temeljni dio za njih da mogu da dođu do tog spremišta podataka, tog nestrukturiranog spremišta podataka, i prikupe uvid iz podataka.

Koje tehnologije podupiru optimalnu upotrebu nestrukturiranih podataka za kupce, posebno u ovoj eri AI?

Mislim da ima nekoliko komada.

Na osnovnom nivou, želite tehnologiju koja omogućava konsolidaciju NAS-a. Jedna od naših specijalnosti je da obezbedimo takvu vrstu NAS-a, omogućenog u oblaku, koji vam daje razmere i visoke performanse gde god to želite. To je prvi građevinski blok.

Zatim, na vrhu tog bloka, morate imati nestrukturirane alate za upravljanje podacima koji vam omogućavaju da uzmete to ogromno spremište i uradite to u pravom obimu.

Za sve o čemu govorim, borite se protiv skale protiv vjetra, tako da morate imati tehnologiju koja vam omogućava da dođete do stotina miliona ili milijardi datoteka i petabajta prostora za pohranu, u suprotnom ćete na kraju biti osakaćeni u svojim naporima zbog samog obima problema.

Dakle, u ovom sljedećem sloju upravljanja nestrukturiranim podacima, želite imati vrlo skalabilne alate koji vam omogućavaju da klasifikujete podatke, označite podatke, postavite kontrole pristupa na globalnom nivou za podatke – drugim riječima, kurirate podatke.

Mislim, ako pogledate šta ljudi sada pokušavaju učiniti s AI i steći uvid iz AI, neuspjeh većine tih projekata može se pripisati nedostatku dovoljno kvalitetnih podataka koji ulaze u LLM. [large language models]. U mašinskoj školi su nas učili, ubaciš smeće u model, dobiješ smeće iz modela.

Prvi prioritet je čišćenje podataka koji ulaze u vaše modele. To znači alate koji vam omogućavaju da to učinite u velikoj mjeri s redovnim nestrukturiranim podacima koje vaša organizacija proizvodi, tako da se, kako organizacija nastavlja da se razvija, taj skup podataka automatski ažurira.

Ne zato što radite neku posebnu vrstu podizanja i napora, već zato što ste već postavili cevovode i svi sistemi automatski čiste podatke i čine podatke dostupnim modelima mašinskog učenja.

Tako dobijate sistem koji ne radi samo jednom kada vodite projekat, već dodaje uvid u organizaciju na stalnoj osnovi.

I tako, posljednji sloj je ova vrsta dodatka opće namjene u sve dostupne LLM modele. Neće postojati niti jedan koji će zadovoljiti sve vaše potrebe.

Morate imati neku vrstu čvorišta koje vam omogućava da se povežete. Termin koji ljudi sada koriste su MCP interfejsi koji vam daju standardni pristup različitim modelima. Takva vrsta standardizacije na nivou modela je ključna jer se skup podataka neće promijeniti.

Mislim, to će se promijeniti kada se radnici promijene, ali se neće promijeniti na osnovu modela koji koristite. Morate biti u mogućnosti da uključite bilo koji model koji najviše odgovara cilju koji pokušavate postići.

A ako ne radi, ili ako želite nadogradnju, ili ako želite promijeniti dobavljača, morate biti u mogućnosti to promijeniti. To je ono što mi zovemo kasno uvezivanje, a kasnije u projektu morate biti u mogućnosti donijeti tu odluku.

I onda, naravno, morate zatvoriti petlju i vidjeti kroz neku vrstu izvještaja o interfejsu – stvari kao što je Tableau – uvide koje dobijate iz podataka.

Ono što naši klijenti obično žele da urade je da pogledaju podatke o projektu i procene, da li će ovaj projekat biti na vreme? Hoće li biti proračunat na osnovu signala koji dolaze iz nestrukturiranih podataka?

Ili želite da budete u mogućnosti da postignete usklađenost na višem nivou znanja. Možda želite da razumete ne samo šta je u datotekama, već i kako krajnji korisnici komuniciraju sa tim datotekama, kako su se te datoteke menjale tokom vremena. To vam može dati ogroman uvid u ponašanje vaših nestrukturiranih podataka i kako vaša organizacija koristi ili ne koristi te podatke.

Dakle, radi se zapravo o integraciji ta tri sloja; temeljni NAS sloj za konsolidaciju ili nestrukturirani sloj konsolidacije podataka, koji se odnosi na pohranu i osiguravanje zaštite podataka, osiguravajući da imate kapacitet i visoke performanse. Zatim iznad toga je nestrukturirani sloj upravljanja podacima koji vam omogućava da kurirate podatke i pripremite ih tako da ih učinite dostupnim trećem sloju, koji je interfejs za sve modele mašinskog učenja.

Pretpostavljam da se dio stvari u sloju kuriranja i klasifikacije odnosi na metapodatke. Da li bi to bio slučaj?

To je tačno.

Ponekad možete iskoristiti podatke da biste došli do metapodataka, ali pravila su uvijek zasnovana na metapodacima.

Dakle, ideja je da morate imati bogatu strukturu. Zbog toga je taj prvi sloj, NAS konsolidacija, toliko važan.

To je zato što vam je potrebna bogata struktura u vašem sistemu datoteka koja vam omogućava da svoje podatke označite novim metapodacima kako biste omogućili postavljanje pravila na osnovu tih metapodataka koji kontroliraju kuriranje, ponašanje nestrukturiranih podataka.

Pročitajte više o upravljanju podacima

  • Čista CTO istražuje ključ/vrijednost, nema DFM-a na FA//ST i brzi objekt

    Autor: Antony Adshead

  • Podcast: Quantumu nedostaje profitabilnost, ali će doći, kaže izvršni direktor

    Autor: Antony Adshead

  • Podcast: Skladištenje i obuka AI, zaključivanje i agentska AI

    Autor: Antony Adshead

  • Intervju: Nvidia o radnim opterećenjima AI i njihovom utjecaju na pohranu podataka

    Autor: Antony Adshead