OpenAI acuză DeepSeek că le-a furat IP-ul pentru a-și antrena noul model R1, invocând dovezi concrete furnizate de Microsoft. Între timp unii dintre analiști abordează subiectul pe larg, pentru a demonstra cum anume a făcut start-up-ul chinez de inteligență artificială DeepSeek atât de multe, cu atât de puțin.
Și tot între timp Alibaba tocmai a lansat Qwen 2.5, cu rezultate impresionante, de referință. După ce a fost rănit profund de apariția Deep Seek, OpenAI îi acuză acum pe chinezi de furt de IP. Și pentru a înrăutăți lucrurile, un al doilea model chinez tocmai s-a lansat.
„Legenda” însă spune cam așa: Un fond speculativ chinez a construit un model de raționament de ultimă generație care a depășit OpenAI și a cheltuit doar 5,5 milioane de dolari pentru a-l antrena. Apoi a oferit lumii un cod de reducere de 100% pentru a-l folosi. Acest lucru a fost devastator pentru Big Tech, în special pentru OpenAI, care a încercat treptat să convingă oamenii că AI este complex și e nevoie lucruri sofisticate, precum centrele de date Stargate de 500 de miliarde de dolari.
Acum, pentru a readuce trenul AI pe drumul cel bun, noul consilier pe AI de la Casa Albă, David Sachs, tocmai a vorbit la știri și a spus că există dovezi substanțiale că Deep Seek a furat de la OpenAI. După o săptămână de evoluții DeepSeek, îndoielile și misterele rămân. Lecțiile grele învățate din modelele DeepSeek pot ajuta, în cele din urmă, companiile AI din SUA și pot accelera progresul către AI la nivel uman.
DeepSeek a transmis unde de șoc
Compania chineză DeepSeek a transmis unde de șoc prin AI și comunitățile de investiții zilele acestea, deoarece oamenii au aflat că a creat modele de IA de ultimă generație folosind mult mai puțină putere de calcul și capital decât crede oricine că este posibil. Compania și-a arătat apoi munca în lucrări de cercetare publicate și punând modelele sale la dispoziția altor dezvoltatori. Acest lucru a ridicat întrebări arzătoare: și-au pierdut SUA avantajul în cursa AI? Și chiar va fi nevoie în SUA de atâtea cipuri AI șa cum li s-a spus americanilor? Câtă putere de calcul a folosit cu adevărat DeepSeek?
DeepSeek a susținut că și-a antrenat cel mai recent model pentru aproximativ 5,6 milioane de dolari și fără cele mai puternice cipuri AI (SUA i-au interzis Nvidiei să-și vândă unitățile sale puternice de procesare grafică H100 în China, așa că DeepSeek s-a descurcat cu 2.048 de H800). Dar informațiile pe care le-a furnizat în lucrările de cercetare despre costurile și metodele sale sunt incomplete. „Cele 5 milioane de dolari se referă la cursul final de antrenament al sistemului”, subliniază Alan Fern, profesor de IA/robotică la Universitatea de Stat din Oregon, într-o declarație pentru Fast Company. „Pentru a experimenta și a identifica o configurație de sistem și o combinație de trucuri care ar duce la o cursă de antrenament de 5 milioane de dolari, foarte probabil au cheltuit ordine de mărime mai mult.” El adaugă că, pe baza informațiilor disponibile, este imposibil să se reproducă cursa de antrenament de 5,6 milioane USD a DeepSeek.
Cum anume a făcut DeepSeek atât de multe cu atât de puțin?
DeepSeek pare să fi realizat unele inovații de inginerie legitime pentru a face modelele sale mai puțin costisitoare de antrenat și de rulat. Dar tehnicile pe care le-a folosit, cum ar fi arhitectura Mixture-of-experts și raționamentul în lanț de gândire, sunt binecunoscute în lumea AI și sunt utilizate în general de toate laboratoarele majore de cercetare AI.
Inovațiile sunt descrise doar la un nivel înalt în lucrările de cercetare, așa că nu este ușor să vedem cum a dat DeepSeek lovitura. „Poate că a existat un truc principal sau poate au existat o mulțime de lucruri care au fost doar foarte bine concepute peste tot”, spune Robert Nishihara, cofondatorul platformei de rulare AI Anyscale. Multe dintre inovațiile DeepSeek au crescut din cauza utilizării GPU-urilor mai puțin puternice (Nvidia H800s în loc de H100s) din cauza interdicțiilor de cipuri ale Administrației Biden.
„Resursele limitate obligă la noi metode inovatoare eficiente”, spune Nishihara. „De aceea, studenții absolvenți vin cu o mulțime de lucruri interesante, cu mult mai puține resurse – este doar o mentalitate diferită”.
Ce inovație poate influența cel mai mult alte laboratoare de inteligență artificială? După cum subliniază Jack Clark de la Anthropic într-o postare recentă pe blog, DeepSeek a reușit să folosească un model mare, DeepSeek-V3 (~700K parametri), pentru a învăța un model R1 mai mic să fie un model de raționament (cum ar fi o1 al lui OpenAI) cu un model surprinzător de mic. cantitatea de date de antrenament și nicio supraveghere umană. V3 a generat 800.000 de eșantioane de text adnotat care arată întrebări și lanțurile de gândire pe care le-a urmat pentru a le răspunde, scrie Clark.

„Nu avem vizibilitate asupra tehnicilor care sunt folosite de Google și OpenAI”
DeepSeek a arătat că, după procesarea eșantioanelor pentru o perioadă, modelul R1 mai mic a început spontan să „se gândească” la răspunsurile sale, explică Andrew Jardine, șeful departamentului de introducere pe piață la Adaptive ML. „Spuneți doar „aici este problema mea—creați câteva răspunsuri la acea problemă” și apoi, pe baza răspunsurilor care sunt corecte sau incorecte, îi oferiți o recompensă (un cod binar care înseamnă „bun”) și spuneți „încercați din nou”. Și în cele din urmă începe să sune – <Nu sunt sigur; lasă-mă să încerc acest nou unghi sau abordare> sau <acea abordare nu a fost cea potrivită, lasă-mă să încerc pe asta> și începe să se întâmple de la sine. Există o adevărată magie acolo. Cercetătorii DeepSeek l-au numit un <moment aha>”.
De ce companiile AI din SUA nu au făcut deja ceea ce a făcut DeepSeek? „De unde știi că nu au făcut-o?” întreabă Jardine. „Nu avem vizibilitate asupra tehnicilor care sunt folosite de Google și OpenAI; nu știm exact cât de eficiente sunt abordările de formare.” Asta pentru că acele laboratoare de inteligență artificială din SUA nu își descriu tehnicile în lucrări de cercetare și nu eliberează ponderile modelelor lor, așa cum a făcut DeepSeek. „Există multe motive să credem că au deja cel puțin unele dintre aceste metode de eficiență.” Nu ar trebui să fie surprinzător dacă următorul model de raționament al OpenAI, o3, este mai puțin intensiv în calcul, mai rentabil și mai rapid decât modelele DeepSeek.
Cum rămâne cu Nvidia
Nvidia furnizează până la 95% la sută din cipurile AI avansate folosite pentru a cerceta, antrena și rula modele AI de frontieră. Acțiunile companiei au pierdut luni 17% din valoare, când investitorii au interpretat rezultatele cercetării DeepSeek ca un semnal că ar fi necesare mai puține cipuri Nvidia scumpe în viitor decât se anticipau anterior. Yann LeCun de la Meta spune că vânzările de luni au crescut dintr-o „neînțelegere majoră cu privire la investițiile în infrastructura AI”.
Câștigătorul Premiului Turing spune că, în timp ce DeepSeek a arătat că modelele de frontieră ar putea fi antrenate cu mai puține GPU-uri, principala sarcină a cipurilor în viitor va fi în timpul inferenței – munca de raționament pe care modelul o face atunci când răspunde la întrebarea sau problema unui utilizator (de fapt, DeepSeek a găsit o modalitate nouă de a comprima datele din fereastră de context, astfel încât să fie nevoie de mai puține calcule în timpul inferenței). El spune că, pe măsură ce sistemele AI procesează mai multe date și mai multe tipuri de date, în timpul inferenței, costurile de calcul vor continua să crească .
DeepSeek a folosit modele OpenAI pentru a ajuta la antrenarea propriilor modele? Nimeni nu știe cu siguranță, iar experții în inteligență artificială rămân dezacord cu această problemă. Financial Times raporta miercuri că OpenAI crede că a văzut dovezi că DeepSeek a folosit conținut generat de modelele OpenAI pentru a-și antrena propriile modele, ceea ce ar încălca termenii OpenAI. Distilarea se referă la economisirea de timp și bani prin introducerea rezultatelor modelelor mai mari și mai inteligente în modele mai mici pentru a le învăța cum să se ocupe de sarcini specifice.
Modelele de raționament vor rula pe smartphone-uri
Tocmai am experimentat un moment în care lumea open-source a produs câteva modele care au egalat ofertele actuale cu sursă închisă în performanță. Costul real al dezvoltării modelelor DeepSeek rămâne o întrebare deschisă. Problema găsirii unor modalități cu adevărat utile de utilizare a inteligenței artificiale în viața reală devine din ce în ce mai presantă pe măsură ce costul dezvoltării modelelor și al construirii infrastructurii crește. O mare speranță este că modelele AI puternice vor deveni atât de mici și eficiente încât vor putea rula pe dispozitive precum smartphone-uri și ochelari AR. Descoperirile inginerești ale DeepSeek pentru a crea modele mai ieftine și mai puțin consumate de calculatoare pot da o nouă viață cercetării asupra modelelor mici care trăiesc pe dispozitive de vârf.
„Scăderea semnificativă a cerințelor de memorie pentru inferență face ca inferența de margine să fie mult mai viabilă, iar Apple are cel mai bun hardware exact pentru asta”, spune analistul tehnologic Ben Thompson într-un buletin informativ recent al Stratechery. „Apple Silicon folosește memorie unificată, ceea ce înseamnă că CPU, GPU și NPU (unitate de procesare neuronală) au acces la un pool partajat de memorie; asta înseamnă că hardware-ul de ultimă generație al Apple are de fapt cel mai bun cip de consum pentru inferență.”
Fondatorul Stability AI, Emad Mostaque, spune că modelele de raționament precum o1 de la OpenAI și R1 de la DeepSeek vor rula pe smartphone-uri până anul viitor, realizând sarcini la nivel de doctorat cu doar 20 de wați de electricitate – echivalentul creierului uman.
OpenAI lansează un agent AI pentru lucrătorii guvernamentali
OpenAI a anunțat săptămâna aceasta un nou instrument AI numit ChatGPT Gov, care este conceput special pentru a fi utilizat de agențiile guvernamentale din SUA. Deoarece trimiterea datelor guvernamentale sensibile printr-un API către un server OpenAI prezintă probleme evidente de confidențialitate și securitate, ChatGPT Gov poate fi găzduit în mediul cloud privat al unei agenții.
„Vedem un potențial enorm pentru aceste instrumente de a sprijini sectorul public în abordarea provocărilor complexe – de la îmbunătățirea sănătății publice și a infrastructurii până la consolidarea securității naționale”, scrie OpenAI într-o postare pe blog. În 2023, administrația Biden a ordonat agențiilor guvernamentale să găsească modalități productive și sigure de a utiliza noua tehnologie generativă de inteligență artificială (Trump a revocat recent ordinul executiv).
Departamentul pentru Securitate Internă, de exemplu, și-a construit propriul chatbot AI, care este acum folosit de mii de lucrători DHS. OpenAI spune că 90.000 de utilizatori din oficiile guvernamentale federale, de stat și locale au folosit deja produsul ChatGPT Enterprise al companiei.
Citiți și: DeepSeek, interzis în Italia și SUA din cauza problemelor de confidențialitate