Proboj AI holandskog istraživača bavi se paradoksom strukturiranih podataka

anketa.plus
Izvor: anketa.plus

Organizacije se nalaze na ogromnim količinama strukturiranih podataka u relacionim bazama podataka i tabelama. Organiziran je i pretraživ, ali kada je u pitanju izvlačenje uvida, jedva da zagrebemo površinu.

„Ne znamo ono što ne znamo“, kaže Madelon Hulsebos, istraživač u holandskom Centru Wiskunde & Informatica (CWI), nacionalnom istraživačkom institutu za matematiku i računarstvo u Holandiji.

Hulsebos je započela svoju karijeru kao naučnik podataka i primijetila je da su visoko plaćeni stručnjaci u više navrata obavljali iste ručne zadatke: čišćenje tablica, izdvajanje funkcija i povezivanje skupova podataka.

Tokom svog doktorata na Univerzitetu u Amsterdamu i postdoktorskog istraživanja na Univerzitetu Kalifornije, Berkli, razvila je „učenje predstavljanja tablica“ – omogućavajući veštačkoj inteligenciji (AI) da razume šta tabele znače, a ne da ih jednostavno pretražuje. Ona sada vodi Laboratoriju za učenje stone reprezentacije u CWI, radeći na ovom izazovu sa tri studenta doktorskih studija, dva postdoktorata i šest studenata master studija.

„Kao naučnik podataka, iskusio sam koliko je neverovatno teško i frustrirajuće pronaći relevantne skupove podataka, na primer, za obuku modela mašinskog učenja“, kaže Hulsebos.

Veliki dio podataka postoji, ali se nalazi raštrkano ili duboko zakopano u velikim, složenim tabelama.

Koristeći sredstva uključujući grant za stipendije NWO AiNed – program Nacionalnog fonda za rast za privlačenje i zadržavanje vrhunskih istraživača AI na holandskim univerzitetima i istraživačkim institutima – osnovala je laboratoriju CWI s ciljem demokratizacije uvida iz strukturiranih podataka. „Cilj je u suštini da, na osnovu pitanja koja ljudi imaju – poslovni korisnici, analitičari – možemo automatski dohvatiti relevantne podatke u različitim sistemima i dati odgovore“, kaže Hulsebos.

Informacije za uvid

Projekat za koji je Hulsebos dobio grant zove se DataLibra, koji traje od 2024. do 2029. Tokom tih pet godina, istraživačica i njen tim imaju za cilj ne samo da steknu uvid, već i da izgrade konkretne alate koje organizacije mogu koristiti da izvuku više vrijednosti iz svojih podataka.

„Tražiti podatke unutar vaše organizacije bi trebalo biti jednako jednostavno kao i pretraživanje na Google-u“, kaže ona. “AI ovdje može igrati glavnu ulogu jer omogućava korištenje prirodnog jezika umjesto da zahtijeva od ljudi znanje programiranja, poslovne inteligencije i relacijskih baza podataka.”

Čini se da je kontradiktorno da AI može igrati ulogu. Godinama se AI pozicionirala kao rješenje za nestrukturirane podatke kao što su tekst, slike i video, dok je strukturirane podatke u tabelama navodno bilo lako pretraživati. Ali problem nije sama struktura, kaže Hulsebos, već njena raznolikost.

Svaki sistem koristi različita imena kolona i logiku, što uzrokuje da tradicionalne metode kao što su SQL i podudaranje uzoraka ne uspijevaju. „Morate razumjeti šta kolone znače, a ne samo kako se zovu,“ dodaje ona. „I tu je mašinsko učenje izvrsno, jer može generalizirati i razumjeti kontekst.”

Dohvaćanje pravog skupa podataka je samo početak. „Mi to zovemo pronalaženje informacija, ali želimo da se krećemo ka pronalaženju uvida“, kaže Hulsebos. „Kada pronađete relevantne tabele, često ih morate kombinovati, povezati ili obraditi da biste mogli da dobijete uvid.“

To čini izazov složenijim od jednostavnog pretraživanja. Istovremeno, ona naglašava da potpuna automatizacija nije cilj. „Niko ne može jednostavno vjerovati uvidu“, kaže ona. “Uvijek morate biti u stanju objasniti zašto je odgovor pravi odgovor na to konkretno pitanje. Transparentnost i ponavljanje su ključni u tom pogledu.”

Automatizacija nauke o podacima

Na pitanje kako se tabela razlikuje od tradicionalne poslovne inteligencije, Hulsebos odgovara: „Naučnici podataka rade više od tradicionalne BI [business intelligence] zadatke kao što su izvještaji i kontrolne ploče, oni također treniraju modele mašinskog učenja. Naš cilj je i da razvijemo alate za automatizaciju ponavljajućih, svakodnevnih zadataka kao što su čišćenje podataka, validacija ili transformacija podataka.”

Često se kaže da je nauka o podacima 80% rada sa podacima i 20% modeliranja. „Želimo da automatizujemo tih 80% što je više moguće, tako da naučnici podataka mogu da se fokusiraju na drugi deo gde razmišljaju o kritičnim aspektima problema, kao što su etička pitanja“, kaže ona.

Osim toga, Hulsebos želi svim naučnicima koji se ne bave podacima dati više mogućnosti. „Ovo se zaista dotiče poslovne inteligencije, ali trenutno je potrebno dosta vremena i novca da to uradite sami, jer vam je i dalje potreban neko ko pravi kontrolne table i razume šta je pravi uvid potreban“, kaže ona.

“Ali često osoba s problemom ne vidi koji bi podaci mogli pomoći. A osoba koja upravlja podacima ne razumije problem. Taj jaz je problem. Osiguravanjem da se relacijske baze podataka mogu ispitivati ​​na običnom jeziku bez potrebe za poznavanjem SQL-a ili temeljnih struktura podataka, već možete generirati daleko više uvida.”

Mnogi dobavljači softvera trenutno tvrde da imaju takve AI karakteristike u svojim proizvodima, ali Hulsebos i dalje nije impresioniran. „Veoma je lako izgraditi nešto što ne mora uvek da funkcioniše dobro“, kaže ona. “Postoji mnogo otmjenih demonstracija istraživača ili analitičara agenturnih podataka, ali ja sam ispitao mjerila i stopa uspjeha je često nula. Sve zvuči divno, ali da bismo zapravo stigli tamo, imamo još puno posla.”

Hulsebos naglašava važnost robusnosti i transparentnosti sistema. “Možete pitati LLM [large language model] pitanje i ono će uvijek dati odgovor, ali isto tako mora biti u stanju da vas uvjeri da je to pravi odgovor”, kaže ona. “Da su transparentnost i kontekst neophodni za usvajanje.”

Kontekst određuje osjetljivost podataka

Upravo ta transparentnost i kontekst pokazali su se ključnim u projektu koji je Hulsebos nedavno sproveo za Ujedinjene nacije (UN). Ilustruje ne samo zašto postojeći alati nedostaju, već i šta je potrebno da bi učenje predstavljanja tablica funkcioniralo u praksi.

Do saradnje je došlo kada se Hulsebos, jednom na akademskom putu, obratio Humanitarnom centru za podatke. „Aspekt humanitarne pomoći me zaista pokreće“, kaže ona. “Vidio sam da sa svoje pozicije mogu postići društveni uticaj sarađujući s UN-om na pitanjima naučnog istraživanja.”

Prvi zajednički projekat fokusiran je na otkrivanje osjetljivih podataka, izazov koji se direktno povezuje s njenim ranijim istraživanjem o značenju tablica na Massachusetts Institute of Technology. Centar za humanitarne podatke pomaže lokalnim organizacijama u pružanju pomoći tokom sukoba, prirodnih katastrofa i drugih kriza. Preko svoje platforme za razmjenu humanitarnih podataka, ove organizacije dijele skupove podataka koje drugi mogu koristiti za planiranje i koordinaciju.

“Problem je u tome što veliki dio tih podataka dolazi iz zona sukoba i što sadrži izuzetno osjetljive informacije”, kaže Hulsebos. “Ali ono što je osjetljivo ovdje se suštinski razlikuje od onoga što mnogi trenutni sistemi klasifikuju kao ‘osjetljivo’. Obično se fokusiraju na lične podatke kao što su imena i adrese, ali ovdje gledamo dalje, naime na podatke koji mogu biti opasni u određenom kontekstu. Razmotrite, na primjer, detaljne koordinate bolnica u zonama sukoba. To bi moglo omogućiti da nove napade postanu dostupni za pristup. Želite da filtrirate takve skupove podataka.”

Zajedno sa studentom master studija Liang Telkampom, Hulsebos je razvio dva mehanizma za rješavanje ovog problema. Prvi mehanizam uključuje puni kontekst podataka u svoje rezonovanje, dramatično smanjujući lažne pozitivne rezultate. „Postojeći alati detektuju adresu i zaključuju da je osetljiva“, kaže ona. “Ali adresa kompanije može biti savršeno javna – nije osjetljiva. Morate pogledati kontekst u kojem se nešto spominje, a ne samo tip podataka.”

Drugi mehanizam – „preuzmi pa otkrij“ – povezuje skupove podataka sa relevantnim politikama i protokolima koji su primjenjivi u tom trenutku. „Kada negdje izbije sukob, ono što je osjetljivo se mijenja“, kaže Hulsebos. “Vaš sistem mora biti u stanju da povrati taj novi kontekst i ugradi ga u svoju procjenu.”

Taj dinamični pristup se pokazao bitnim. Skup podataka o bolnicama u Holandiji zahtijeva drugačiju procjenu od istih podataka iz Gaze. „To nije samo situaciono, već zavisi i od vremena“, kaže ona. “Informacije koje nisu bile osjetljive prije pet godina mogle bi odjednom postati takve sada. Morate biti u stanju razumjeti kontekst u kojem se podaci koriste.”

Rezultati pokazuju da pristup funkcioniše, posebno za otkrivanje ličnih informacija, ali se sistem takođe pokazuje vrednim za situaciono osetljive podatke. „Službenici za ocjenu kvaliteta u UN-u su smatrali da su kontekstualizirana objašnjenja LLM-a izuzetno korisna“, kaže Hulsebos. “Ti protokoli za razmjenu informacija su izuzetno dugački dokumenti. To što sistem izdvaja relevantna pravila i objašnjava zašto je nešto osjetljivo već je bilo vrlo pronicljivo za njih.”

Telkampov rad – ona sada radi u UN-u na integraciji – nedavno je nagrađen Amsterdamskom nagradom za AI tezu, dijelom zbog društvenog uticaja.

Činiti uvid u podatke šire dostupnijim

Projekat UN-a ilustruje specifičan problem, ali osnovni izazov – kako učiniti podatke dostupnim i razumljivim – pojavljuje se u svakoj organizaciji. Razumijevanje osjetljivosti podataka u kontekstu organizacije uvijek je korisno, kaže Hulsebos. Štaviše, važno je shvatiti da su LLM obučeni za sve vrste skupova podataka prebačenih sa interneta, uključujući portale za razmjenu podataka.

“Tako je važno osigurati da nijedan osjetljivi podatak ne završi na tim portalima, jer kada se nađe u podacima o obuci tih modela, ne izlazi”, kaže ona.

Ali organizacije također ne uspijevaju u potpunosti iskoristiti podatke koje prikupljaju. „Ne znamo ono što ne znamo“, kaže Hulsebos. “Ljudi postavljaju pitanja o stvarima za koje već znaju da podaci postoje. Ali koliko vam uvida nedostaje jer ne znate da određeni podaci uopće postoje? Ili zato što ne znate koje skupove podataka trebate kombinirati da biste dobili odgovor?”

Stoga želi učiniti vidljivim ono što ljudi još ne znaju o svojim podacima i učiniti pristup podacima i uvidima dostupnijim u organizacijama. „Za izvršnog direktora je izuzetno korisno kada svi u njihovoj organizaciji imaju direktan pristup uvidima koji im pomažu da donose važne odluke“, kaže Hulsebos.

Ona opisuje da je prvo potrebno mobilizirati odjel za nauku o podacima ili poslovnu inteligenciju kao „prepreku nekome u prodaji, logistici ili financijama da brzo postavi važno pitanje“.

„Do trenutka kada se isporuče BI kontrolna tabla ili SQL upit, uvid više nije relevantan“, kaže Hulsebos.

To zahtijeva sisteme zasnovane na umjetnoj inteligenciji koji demokratizuju uvide iz strukturiranih podataka, omogućavajući ljudima da djeluju i odlučuju direktno. „Brzina do uvida je ključni faktor“, dodaje ona.

Konkretna rješenja za poslovanje su u razvoju. Jedan od njenih studenata doktorskih studija gradi alate za automatizaciju aspekta pronalaženja i podržava generisanje strukturiranog jezika upita. „Sve te alate činimo dostupnim kao otvoreni kod“, kaže Hulsebos. “Pokušavamo da stvari učinimo zaista upotrebljivim, a ne samo da ih objavimo. U naredna dva mjeseca prve verzije će biti dostupne.”

Jedan od primjera je DataScout, alat koji je razvila tokom svog boravka na Univerzitetu Kalifornije, Berkeley. Sistem pomaže korisnicima da pronađu skupove podataka na osnovu njihovog zadatka ili problema, a ne ključnih riječi. „Pretraga zasnovana na zadacima sa LLM-ima koji razmišljaju proaktivno pokazuje se izuzetno korisnim,“ kaže Hulsebos.

U korisničkim studijama, DataScout se pokazao bržim i efikasnijim od tradicionalnih platformi podataka s pretraživanjem po ključnim riječima. “Kao naučnik podataka, lako bi moglo proći dvije sedmice do mjesec dana prije nego što prikupite prave podatke za model mašinskog učenja,” kaže ona.

Da takvi sistemi još uvijek nisu standardni u podatkovnoj platformi obrasci, iako bi mogli uštedjeti sedmice rada u potrazi, i dalje iznenađuje Hulsebosa. „Cilj je da svako u organizaciji – od generalnog direktora do prodajnog osoblja – može direktno postavljati pitanja o svojim podacima“, kaže ona. “Bez posrednika, bez vremena čekanja.”