DEEPSEEK-R1: Izazovi za budžetiranje za predodređene implementacije

anketa.plus
Izvor: anketa.plus

Dostupnost Deepseek-R1 model velikog jezika pokazuje da je moguće implementirati AI na skromnim hardverom. Ali to je samo pola priče

Od

  • Cliff Saran,Upravljanje urednikom

Objavljeno: 18. februara 2025. 17:00

Do sada su vođe potrebni za razmatranje rizika sa cyber sigurnosnim rizicima koji omogućuju korisnicima da pristupe velikim jezičkim modelima (LLMS) poput chatgpt-a direktno preko CACGPT-a. Alternativa je korištena LLM-a otvorenog koda koji se mogu ugostiti na prostoru ili pristupiti putem privatnog oblaka.

Model umjetne inteligencije (AI) treba pokrenuti u memoriji i kada se koristi grafičkim jedinicama za obradu (GPU-a) za AI ubrzanje, to znači da je li čelnici potrebno razmotriti troškove povezane s kupnjom banaka GPU-a za izgradnju dovoljno memorije za izgradnju ceo model.

Nvidia’s High-End AI ubrzanje GPU-a, H100, konfiguriran je sa 80GBytes od slučajne memorijske memorije (RAM-a), a njegova specifikacija pokazuje da je ocijenjeno na 350 W u smislu upotrebe energije.

Kineski Deepseek je mogao pokazati da je njegov R1 LLM može rivali umjetnu inteligenciju bez potrebe da se pribjegava najnovijem GPU hardveru. Međutim, ima koristi od GPU-ove AI ubrzanja.

Ipak, raspoređivanje privatne verzije Deepseeka i dalje zahtijeva značajne hardverske investicije. Da biste pokrenuli cijeli DeepSeek-R1 model, koji ima 671 milijardu parametara u memoriji, zahtijeva 768gbija memorije. Sa NVIDIA H100 GPU-om, koji su konfigurirani sa 80GByTes od video memorijske kartice, potrebno bi bilo potrebno za osiguravanje cijelog Deepseek-R1 modela može pokrenuti memoriju.

Čerderi mogu biti u mogućnosti pregovarati o količinskim popustima, ali troškovi samo AI hardvera za ubrzanje koji se pokreće duboko je oko 250.000 dolara.

Može se koristiti manje moćan GPU-ovi koji može pomoći u smanjenju ove figure. Ali date trenutne cijene GPU-a, poslužitelj koji može pokrenuti kompletan model Parametra 670 milijardi Paramek-R1 koštat će preko 100 000 USD.

Poslužitelj se može pokrenuti na javnoj oblačnoj infrastrukturi. Azure, na primjer, nudi pristup Nvidia H100 sa 900 GByTes of memorije za 27,1677 dolara po satu, što bi na papiru trebalo lako moći pokrenuti 671 milijardu parametra dubokogseek-r1 u potpunosti u memoriji.

Ako se ovaj model koristi svaki radni dan, a pod pretpostavkom 35-satne sedmice i četiri sedmice godišnje odmora i zastoja, godišnji azurni račun bi bio gotovo 46.000 dolara godišnje. Opet se ta brojka može značajno smanjiti na 16,63 dolara na sat (23.000 dolara) godišnje ako postoji trogodišnja posvećenost.

Manje snažni GPU-u očito će koštati manje, ali to su troškovi memorije koji čine ove zabrane. Na primjer, gledajući trenutnu cijenu Google Cloud-a, Nvidia T4 GPU košta 0,35 USD po GPU-u po satu, a dostupan je sa do četiri GPU-a, što daje ukupno 64 GBytes memorije za 1,40 dolara na sat, a bile su potrebne u iznosu od 1,40 milijardi dolara, a 12 bi bilo potrebno Da bi se uklopio u model parametra dubokog-R1 671 milijarde, u potpunosti u memoriji, koji radi na 16,80 dolara na sat. Sa trogodišnjom opredjeljenjem ova se cifra spušta i na 7,68 USD, koja radi na samo ispod 13.000 dolara godišnje.

Jeftiniji pristup

Čelnici mogu u potpunosti smanjiti troškove izbjegavanjem skupih GPU-a i u potpunosti oslanjati se na centralnu prerađivačku jedinicu (CPU). Ova postavka je zaista pogodna samo kada se Deepseek-R1 koristi isključivo za AI zaključak.

Nedavno tvit iz Matthewa Carrigana, mašinska inženjer učenja na Hugging licu, sugerira takav sistem može se izgraditi pomoću dva AMD EPYC server procesora i 768 GBytes iz brzog memorije. Sistem koji je predstavio u nizu tweetova mogao bi se sastaviti za oko 6.000 dolara.

Odgovarajući na komentare na postavku, Carrigan je rekao da može postići brzinu prerade od šest do osam tokena u sekundi, ovisno o specifičnom procesoru i brzini memorije koja je postavljena. Takođe ovisi o dužini upita prirodnog jezika, ali njegov Tweet uključuje video koji prikazuje u blizini u stvarnom vremenu u stvarnom vremenu u realnom vremenu na hardveru koji je izgrađen na osnovu dual amd Epyc Setup i 768GBytes od memorije.

Carrigan priznaje da će GPU pobijediti na brzini, ali oni su skupi. U svojoj seriji tweetova ističe da je iznos instaliran memorije izravan utjecaj na performanse. To je zbog načina na koji se deepseek “pamti” prethodne upite kako bi se brže upoznali. Tehnika se naziva keširanjem ključne vrijednosti (kV).

“U testiranju s dužim kontekstima je KV predmemorija zapravo veći nego što sam shvatio”, rekao je i predložio da će hardverska konfiguracija zahtijevati 1tbytes of memorije umjesto u 76gbajta, kada se u dubokoj količini teksta ili konteksta zalijepile u dubokim performansima upit upita.

Kupovina pretplaćeni dell, HPE ili Lenovo server za činiti nešto slično vjerovatno će biti znatno skuplje, ovisno o specificiranju procesora i memorijskih konfiguracija.

Drugi način za rješavanje troškova memorije

Među pristupima koji se mogu poduzeti za smanjenje troškova memorije koristi višestruke memorije koje upravljaju prilagođenim čipom. Ovo je ono što je California Startup Sambanova obavio koristeći svoju konfiguraciju SN40L-a Dataflow jedinice (RDU) i vlasnička dataFlow arhitekturu za tri-ravna memorija.

“Deepseek-R1 je jedan od najnaprednijih dostupnih graničnih AI modela, ali njegov puni potencijal ograničen je neefikasnošću GPU-a”, rekao je Rodrigo Liang, generalni direktor Sambanova.

Kompanija, koja je u 2017. osnovala grupu ex-sunce / Oracle inženjera i ima u toku sa suradnjom sa Elektrotehničkom tehničkom tehničkom tehničkom tehničkom, tvrdi da RDU CHIP urušava hardverske zahtjeve za efikasno iz čega u jednom od 40 regala stalak konfiguriran sa 16 RDUS-a.

Ranije ovog mjeseca na konferenciji LEAP 2025 u Rijadu, Sambanova je potpisala ugovor za uvođenje prvog suverenog LLM-AS-A-servisnog oblačnog platforme Saudijske Arabije. Saud Alsheraihi, potpredsjednik digitalnih rješenja u kompaniji Saudijski telekom, rekao je: “Ova saradnja sa Sambanova označava značajnu prekretnicu na našem putu za osnaživanje saudijskih preduzeća sa suverenim AI mogućnostima. Nudeći sigurnu i skalabilnu platformu za inferenciranje-AS-a-a-a, mi omogućavamo organizacijama da otključaju puni potencijal svojih podataka uz održavanje potpune kontrole. “

Ovaj se bavljenje pružateljem usluga Saudijskog Arabian Telco ilustrira kako vlade moraju razmotriti sve mogućnosti pri izgradnji suverenog AI kapaciteta. Deepseek je pokazao da postoje alternativni pristupi koji mogu biti jednako efikasni kao i isprobana metoda raspoređivanja ogromnih i skupih niza GPU-a.

I dok se zaista radi bolje, kada je prisutan Hardver AI AI, ono što Sambanova tvrdi da postoji i alternativni način za postizanje istih performansi za pokretanje modela poput dubokog, u memoriji, u memoriji, bez memorije Troškovi za stjecanje GPU-a opremljene memorijom u modelu potrebe.

Pročitajte više o infrastrukturi-as-a-servisu (IAAS)

  • Budžetska fleksibilnost za on-prem ai

    Napisao: Cliff Saran

  • Ruku i meta: planira put do razrijeđenog GPU kapaciteta

    Napisao: Cliff Saran

  • Xai’s Grok-3 ističe otvorenost i zabrinutost transparentnosti

    Napisao: Esther Shittu

  • Intervju: Zašto je Samsung stavio fazu centra za pokretanje u Velikoj Britaniji

    Napisao: Cliff Saran