OpenAI accusa DeepSeek di aver copiato modelli USA

In una comunicazione indirizzata al parlamento USA OpenAI ha accusato DeepkSeek di aver addestrato i propri modelli sfruttando la distillazione di ChatGPT.

OpenAI ha inviato un avviso ufficiale ai legislatori degli Stati Uniti accusando esplicitamente la startup cinese DeepSeek di “sottrarre la proprietà intellettuale sviluppata dalle principali aziende americane del settore”. All’interno di un memo riservato indirizzato giovedì alla Commissione Ristretta della Camera sulla Concorrenza Strategica tra USA e Cina, l’azienda produttrice di ChatGPT ha denunciato i “continui sforzi per sfruttare gratuitamente le capacità sviluppate da OpenAI e da altri laboratori di ricerca avanzata statunitensi” da parte della società asiatica.

La meccanica della distillazione

L’accusa tecnica centrale mossa da OpenAI riguarda l’utilizzo massiccio di una procedura nota come distillazione (Knowledge Distillation). Questa tecnica informatica consiste nell’impiegare un modello di intelligenza artificiale di grandi dimensioni, già collaudato e con alti costi di elaborazione (definito modello “teacher”), per valutare e istruire un modello di nuova generazione più piccolo e leggero (il modello “student”). Interrogando continuamente il sistema più avanzato ed estraendone gli output formattati, il nuovo modello acquisisce le medesime capacità di risposta logica senza dover sostenere gli enormi costi di calcolo e di energia necessari per l’addestramento primario dei dati.

Sebbene la distillazione sia una pratica standard quando eseguita internamente sui propri server aziendali, la sua applicazione su sistemi concorrenti per addestrare algoritmi rivali costituisce una violazione esplicita dei termini di servizio. OpenAI sostiene che l’architettura dei modelli di DeepSeek si sia formata analizzando i risultati generati direttamente da ChatGPT, permettendo all’azienda cinese di eguagliare le prestazioni statunitensi a una frazione del costo di sviluppo originario.

Codici programmati e router offuscati

Il documento ufficiale, visionato dall’agenzia Reuters, descrive le metodologie informatiche esatte impiegate per il prelievo dei dati. Gli ingegneri di OpenAI hanno monitorato il traffico e identificato account associati direttamente a dipendenti di DeepSeek impegnati ad eludere in modo sistematico i blocchi geografici e le restrizioni di utilizzo imposte dai server americani.

Le operazioni di aggiramento sono state eseguite impiegando router di terze parti offuscati e reti di mascheramento degli indirizzi IP progettate per nascondere la reale origine del traffico dati. Il memo precisa che i programmatori cinesi, controllati dalla società madre High-Flyer, “hanno sviluppato codice per accedere ai modelli AI statunitensi e ottenere output per la distillazione in modalità programmatica“, automatizzando il processo di estrazione su larga scala. A seguito del rilevamento di queste attività, OpenAI ha confermato di procedere con la rimozione proattiva degli utenti che presentano flussi di richieste riconducibili a operazioni di reverse engineering sui propri algoritmi.

L’impatto sulla sicurezza e sul mercato

L’immissione sul mercato dei modelli DeepSeek-V3 e DeepSeek-R1 ha causato cali azionari significativi nei mercati finanziari tecnologici all’inizio dell’anno, dimostrando che i produttori cinesi possono annullare il divario di calcolo nonostante i divieti governativi sull’esportazione di hardware avanzato verso Pechino. Se inizialmente diversi dirigenti della Silicon Valley avevano valutato positivamente l’efficienza del codice cinese, il documento depositato da OpenAI fornisce una spiegazione tecnica differente, indicando al Congresso che i produttori asiatici stanno “ignorando deliberatamente le procedure di sicurezza” previste per l’addestramento e il rilascio dei nuovi modelli di grandi dimensioni (LLM).

La denuncia formalizzata evidenzia una falla strutturale nell’attuale sistema di protezione delle reti neurali: bloccare fisicamente la fornitura di microprocessori alla dogana non impedisce il trasferimento del know-how cognitivo se gli algoritmi avversari riescono a interrogare le API accessibili pubblicamente. Al momento, né DeepSeek né High-Flyer hanno rilasciato comunicati per smentire le rilevazioni tecniche contenute nel rapporto di OpenAI.

Fonte