Nvidia rinvia i chip CPX e punta tutto su LPU Decode

Nvidia ha svelato al GTC 2026 una svolta strategica: il rinvio dei chip CPX per puntare tutto sulla tecnologia LPU decode e sulla piattaforma Vera Rubin. L’obiettivo è creare un sistema “mostro” che unisce la velocità della memoria SRAM dei chip Groq (LPU) alla capacità delle GPU Nvidia, raggiungendo l’incredibile velocità di 1.000 token al secondo. Mentre le GPU gestiscono i calcoli complessi, la nuova Vera CPU a 88 core si occupa delle operazioni “agenti”, come scrivere codice o interrogare database, eliminando ogni collo di bottiglia. Questa architettura ibrida non solo accelera l’IA, ma abbatte i costi di gestione per i data center, rendendo le risposte dei chatbot istantanee anche per i modelli più pesanti.

Durante il GTC 2026, Ian Buck, vicepresidente di Nvidia per le divisioni Hyperscale e HPC, ha illustrato i nuovi orientamenti strategici dell’azienda in materia di inferenza AI. Al centro dell’annuncio c’è la decisione di posticipare il lancio di CPX per concentrarsi sull’implementazione della tecnologia LPU decode già nel corso dell’anno in corso, abbinata alla piattaforma Vera Rubin.

Rinvio di CPX e focus su LPU decode

Buck ha spiegato che CPX rimane un’idea valida dal punto di vista progettuale, ma che le risorse sono state riallocate per ottimizzare l’architettura LPU decode in combinazione con Vera Rubin. Secondo le sue dichiarazioni, CPX verrà riconsiderato per la prossima generazione di prodotti, mentre l’attenzione immediata è rivolta all’implementazione di un sistema ibrido che unisce chip LPU e GPU.

L’architettura presentata prevede l’utilizzo di rack Groq 3 LPU LPX equipaggiati con 256 chip LPU affiancati a sistemi Vera Rubin NVL72. Il processo di decodifica viene gestito attraverso Dynamo, la piattaforma software di Nvidia che ha integrato il team di sviluppo di Groq. La particolarità del sistema risiede nella suddivisione del carico computazionale: i calcoli che beneficiano della memoria SRAM veloce degli LPU vengono eseguiti su questi processori, mentre le operazioni di attenzione, softmax, routing e gestione della cache KV vengono affidate alle GPU, che dispongono di maggiori capacità di memoria HBM.

Vera CPU: prestazioni per carichi di lavoro agentici

Buck ha mostrato il modulo Vera, una soluzione dual-socket con due CPU Vera e memoria LPDDR5. Secondo la presentazione, si tratta di un processore progettato specificamente per carichi di lavoro agentici, dotato di 88 core capaci di gestire simultaneamente compilazione, rendering, Python e SQL mantenendo prestazioni elevate per singolo thread.

La CPU Vera non è posizionata come alternativa diretta ai processori x86 per il mercato generalista. Buck ha precisato che l’obiettivo è risolvere problematiche legate a carichi di lavoro specifici nell’ambito dell’intelligenza artificiale, in particolare durante le fasi di addestramento e inferenza. Durante l’addestramento di modelli AI, ad esempio per la generazione di codice, le CPU vengono impiegate per eseguire e valutare i programmi creati dall’AI in ambienti sandbox, restituendo i risultati alle GPU per le iterazioni successive. Questo processo richiede prestazioni elevate per evitare colli di bottiglia che potrebbero rallentare l’intero flusso di lavoro.

Nel contesto dell’inferenza, le CPU gestiscono le chiamate a strumenti esterni come query SQL, rendering di immagini o accesso a siti web, operazioni che non vengono eseguite direttamente sulle GPU. Vera è stata progettata per massimizzare l’efficienza energetica e il throughput in questi scenari, particolarmente rilevanti quando gli agenti AI interagiscono tra loro senza intervento umano.

Partnership Intel e tecnologia Fusion

Buck ha confermato che la collaborazione con Intel annunciata in precedenza sta procedendo, sebbene non sia stata trattata nel keynote principale del GTC 2026. La tecnologia Fusion consiste in un blocco IP e un chiplet che permettono ai processori x86 di comunicare con le GPU Nvidia attraverso NVLink. L’integrazione avviene a livello di silicio e coinvolge diversi partner, con tempistiche che richiedono ancora sviluppi prima di annunci commerciali.

Per quanto riguarda la produzione, Buck ha chiarito che i componenti Nvidia continueranno a essere realizzati presso TSMC, mentre i partner potranno scegliere le proprie fonderie per le altre parti. Il modulo Vera mostrato durante l’incontro è composto da sei chiplet differenti che includono die di input/output, tile per le interfacce di memoria e core computazionali.

Architettura LPX e integrazione con Vera Rubin

L’abbinamento tra rack LPX e sistemi Vera Rubin risponde a esigenze di scalabilità ed efficienza economica. I rack Groq 3 LPX, se utilizzati in modo autonomo, potrebbero gestire modelli AI completi, ma richiederebbero un numero elevato di chip per mantenere in memoria sia i pesi del modello che la cache KV, particolarmente onerosa per modelli da trilioni di parametri con contesti estesi.

La soluzione ibrida proposta da Nvidia riduce il numero di rack LPX necessari combinandoli con le GPU Vera Rubin, che dispongono di 280 gigabyte di memoria HBM contro i 500 megabyte di SRAM degli LPU. In questo modo, gli LPU gestiscono i layer mixture-of-experts sfruttando la banda di memoria sette volte superiore rispetto a HBM, mentre le GPU si occupano dei calcoli di attenzione. Il risultato è una velocità di generazione token che può raggiungere i 1.000 token al secondo con un rapporto economico più sostenibile per deployment su larga scala.

Buck ha precisato che CPX era stato concepito per ottimizzare la fase di pre-fill, cioè il tempo necessario per generare il primo token, ma che questa esigenza può essere già soddisfatta con l’hardware esistente. L’architettura LPU decode, invece, migliora la velocità di generazione di tutti i token successivi, aspetto critico per applicazioni che richiedono interazioni rapide tra agenti AI.

Connettività e scale-up

Nella versione Groq 3, gli chip LPU utilizzano ancora il protocollo di comunicazione chip-to-chip originale. L’integrazione di NVLink è prevista per la generazione LP40, che introdurrà anche capacità di calcolo FP4 e funzionalità Tensor Core simili a quelle delle GPU Nvidia.

Per quanto riguarda la connettività rack-to-rack nei sistemi Vera Rubin, Buck ha illustrato come NVLink offra una banda da 10 a 20 volte superiore rispetto a PCIe, necessaria per il tensor parallelism e per gestire architetture mixture-of-experts con centinaia di esperti per layer. L’attuale generazione utilizza cavi in rame per mantenere bassi costi e consumi energetici, evitando retimer e transceiver ottici.

Nvidia sta sviluppando configurazioni che superano i 72 GPU per rack: attraverso NVSwitch con porte frontali, è possibile scalare fino a 576 GPU. Con i rack Kyber, la densità arriva a 144 GPU per rack, espandibile fino a 1.152 GPU. Buck ha anticipato che le connessioni ottiche e la tecnologia CPO verranno introdotte con la generazione Rubin.

Ottimizzazione software e precisione variabile

Riguardo alla precisione di calcolo, Buck ha confermato che non è necessario eseguire tutti i calcoli in FP8 con gli attuali chip LP30. Nvidia utilizza già mix di precisioni (FP16, FP8, FP4) a livello di singoli layer o blocchi, ottimizzando le configurazioni attraverso test estensivi.

Come esempio, ha citato il lavoro svolto tra ottobre e gennaio su modelli come DeepSeek, che ha portato a un incremento di prestazioni di quattro volte sullo stesso hardware attraverso ottimizzazioni software. Il processo ha richiesto circa 250 simulazioni e 1,2 milioni di ore GPU per esplorare lo spazio delle possibili configurazioni. Il team di 400 ingegneri continua a lavorare su ulteriori miglioramenti, evidenziando come l’ecosistema software sia determinante quanto le prestazioni hardware.

Fonte