Najnovije ALIBABA AI model Demos AI poboljšanja

anketa.plus
Izvor: anketa.plus

Kittikorn pH. – Stock.Adobe.com

Najnoviji model iz kineskog provajdera javnog oblaka Alibaba prikazuje kako ojačano učenje pokreće AI efikasnost

Od

  • Cliff Saran,Upravljanje urednikom

Objavljeno: 07. marta 2025. 15:42

Samo dva mjeseca nakon što je Tech World uprostio Model Deepseek-R1 AI, Cloud Alibaba uveo QWQ-32B, otvoreni izvor veliki jezik modela (LLM).

Kineski oblak u oblaku opisuje novi model kao “kompaktni model rezoniranja” koji koristi samo 32 milijarde parametara, ali je sposoban isporučiti performanse uporediv sa drugim velikim jezičnim AI modelima koji koriste veće brojeve parametara.

Na svojoj web stranici Alibaba Cloud objavio je mjerila performansi koja sugeriraju da je novi model uporediv sa AI modelima iz Deepseeka i Openaija. Ove mjerila uključuju AIME 24 (matematičko rezonovanje), živu šifriranje (znanje kodiranja), LiveBench (testna kontaminacija i objektivna procjena), Ifeval (Poputnja-sljedeća sposobnost) i mogućnosti alata i funkcija).

Korištenjem kontinuiranog ojačanog učenja (RL), Alibaba je tvrdio da model QWQ-32B pokazuje značajna poboljšanja matematičkog rezonovanja i čim čišćenju.

U blogu je kompanija navela QWQ-32B, koja koristi 32 milijardu parametara, postiže performanse uporediv sa dubokim Paramerom, koji koristi 671 milijardu parametara. Alibaba je rekla da to pokazuje učinkovitost RL-a kada se primijeni na robusne modele pretreslene na opsežno svjetsko znanje.

“Imamo integrirane mogućnosti povezane sa agentima u model obrazloženja, omogućavajući ga da kritički razmislite dok koristi alate i prilagođavanje njegovog obrazloženja na osnovu povratnih informacija o okolišu”, rekao je Alibaba u blogu.

Alibaba je rekao da QWQ-32B pokazuje efikasnost korištenja učenje ojačanja (RL) za poboljšanje mogućnosti obrazloženja. S ovim pristupom AI treningu, a age sredstvo za učenje AI-a može uočiti i protumačiti svoje okruženje, kao i poduzeti akcije i učiti kroz suđenje i grešku. Učenje ojačanja jedan je od nekoliko pristupa programerima koji koriste za obuku mašina za upravljanje mašinama. Alibaba je koristila RL da svoj model učini efikasnijim.

“Nismo samo bili svedoci ogromnog potencijala skaliranog RL-a, već su prepoznali i neiskorištene mogućnosti u preglednim jezičnim modelima”, rekao je Alibaba. “Dok radimo na razvoju nove generacije Qwen-a, sigurni smo da će kombinirati jače modele temeljnih modela s RL-om koji se pokreću ukidajućim računarskim resursima koji će nas približiti postizanju umjetne opće inteligencije [AGI]. “

Alibaba je rekao da aktivno istražuje integraciju agenata sa RL da bi omogućio ono što on opisuje kao “dugi horizonzoriranje” koji će, prema Alibabi, na kraju dovesti do veće inteligencije.

Model QWQ-32B obučen je pomoću nagrade iz općeg modela nagrade i verifikatora zasnovanih na pravilima, poboljšavajući njegove opće mogućnosti. Prema Alibabi, oni uključuju bolje upute, usklađivanje s ljudskim preferencijama i poboljšanim performansama agenta.

Kineski Deepseek, koji je općenito dostupan od početka godine, pokazuje efikasnost RL-a u svojoj sposobnosti pružanja usporedivih referentnih rezultata u odnosu na suparničke američke modele. Njegov R1 LLM može nas rivantna umjetna inteligencija nadgledati bez potrebe za pribjećinjem najnovijem GPU hardveru.

Činjenica da ALIBABA-ov model QWQ-32B takođe koristi RL nije slučajnost. SAD je zabranilo izvoz high-end ai akceleratorskih čipova – kao što su grafički procesor NVIDIA H100 – u Kinu, što znači da su kineski AI programeri morali gledati alternativne pristupe da rade svoje modele. Izgleda da se koristi RL pruža usporedive referentne rezultate u odnosu na ono što su modeli poput onih iz Openai-a u mogućnosti da postignu.

Ono što je zanimljivo u modelu QWQ-32B je da koristi znatno manje parametara za postizanje sličnih rezultata u Deepseek, što učinkovito znači da bi to trebalo moći pokrenuti na manje snažnim hardverom AI ubrzanja.

Pročitajte više o umjetnoj inteligenciji, automatizaciji i robotici

  • Kreatori politika vagaju natjecanje SAD-China AI nakon Duela

    Napisao: Makenzie Holland

  • Što se dogodilo kada je tehnološki novinar eksperimentirao sa AI na PC-u?

    Napisao: Yann Serra

  • Da li koristi Deepseek stvara sigurnosne rizike?

    Napisao: Nihad Hassan

  • Nove AI modele sa niskim cijenama Baidu donose pitanja o troškovima

    Napisao: Esther Shittu