Con Bonsai Image 4B la generazione di immagini AI in locale sbarca su smartphone

PrismML ha annunciato il rilascio di Bonsai Image 4B, una famiglia di modelli per la generazione di immagini locale basata su pesi a 1-bit e ternari. Derivato da FLUX.2 Klein 4B, il modello riduce drasticamente l'impronta di memoria permettendo l'esecuzione diretta su dispositivi mobili come l'iPhone. I modelli sono open source sotto licenza Apache 2.0.

Il mondo dell’intelligenza artificiale generativa sta vivendo una transizione fondamentale, spostando l’asse computazionale dai grandi data center remoti direttamente all’hardware locale degli utenti (vi dice niente AI Core su Android?). In questo contesto di forte innovazione, PrismML ha annunciato il rilascio ufficiale di Bonsai Image 4B, una nuova famiglia di modelli compatti per la generazione di immagini tramite diffusione. L’obiettivo primario di questo progetto ingegneristico è consentire l’esecuzione di calcoli ad alta fedeltà su macchine dotate di risorse hardware contenute, spaziando dai computer portatili fino ai telefoni cellulari.

Fino a oggi, la produzione di contenuti visivi complessi richiedeva quasi obbligatoriamente di interfacciarsicon API cloud, a causa delle enormi barriere rappresentate dalle dimensioni dei file e dalla larghezza di banda necessaria. Bonsai Image 4B scardina queste limitazioni, presentandosi come il primo modello della sua classe di parametri capace di essere eseguito nativamente e senza supporti esterni su un iPhone, aprendo scenari interessanti in un momento in cui i servizi cloud, AI compresa, iniziano a diventare sempre più costosi.

Indice

L’architettura di compressione: le varianti a 1-bit e ternaria

Per risolvere il problema dei vincoli di memoria sui dispositivi consumer, i ricercatori di PrismML hanno lavorato sulla struttura dei pesi del transformer di diffusione, che rappresenta la componente più esigente e ripetitiva dell’intera pipeline di calcolo. Il modello prende come base di partenza l’architettura di FLUX.2 Klein 4B, mantenendone intatta l’integrità strutturale ma modificando radicalmente il modo in cui i pesi vengono rappresentati ed elaborati. La famiglia si divide in due ramificazioni distinte, ciascuna indirizzata a soddisfare specifiche esigenze di deployment.

La prima configurazione è denominata 1-bit Bonsai Image 4B, una variante orientata alla massima compressione geometrica del file. Questa architettura utilizza pesi del transformer di tipo binario, oscillanti esclusivamente tra i valori di -1 e +1, abbinati a un fattore di scala di gruppo in formato FP16. Il risultato matematico di questa combinazione restituisce un valore di 1,125 bit effettivi per singolo peso. Si tratta della scelta ideale per i contesti operativi in cui la saturazione della memoria RAM, la larghezza di banda del sistema e lo spazio di archiviazione fisico rappresentano i vincoli più severi in assoluto.

La seconda opzione prende il nome di Ternary Bonsai Image 4B ed è una soluzione focalizzata sul bilanciamento tra dimensioni e fedeltà visiva. In questo caso, il sistema adotta pesi del transformer di tipo ternario, i quali introducono un terzo stato logico aggiungendo lo zero alla sequenza di -1 e +1. Mantenendo il medesimo fattore di scala FP16, la struttura raggiunge 1,71 bit effettivi per peso. L’inclusione dello stato zero conferisce al modello una flessibilità rappresentativa superiore, migliorando sensibilmente sia la qualità estetica delle immagini prodotte sia l’aderenza semantica ai prompt testuali inseriti dall’utente.

Analisi dell’impronta di memoria e prestazioni sul campo

I benefici pratici derivanti da questo processo di quantizzazione estrema sono quantificabili attraverso i dati relativi all’occupazione dello spazio di calcolo. Nel modello originale a piena precisione FLUX.2 Klein 4B, il solo blocco del transformer di diffusione occupa ben 7,75 GB di memoria.

Attraverso l’isolamento dei livelli binari, che garantiscono una riduzione di circa 14 volte rispetto alla precisione standard, e preservando in formato FP16 solo un piccolo set del 5% di tensori altamente sensibili denominati livelli di proiezione, il transformer di 1-bit Bonsai Image 4B scende ad appena 0,93 GB, facendo registrare una contrazione dell’impronta pari a 8,3 volte. Il modello ternario segue la medesima logica strutturale, portando il transformer a 1,21 GB con una riduzione di 6,4 volte rispetto alla configurazione standard.

bonsai image 4b generazione immagini smartphone ai locale

Se si considera l’intero pacchetto di installazione per l’ecosistema Apple Silicon, comprensivo dell’encoder di testo compresso e del VAE in formato FP16, il payload complessivo si attesta a 3,42 GB per la versione a 1-bit e a 3,88 GB per la versione ternaria, contro gli oltre 15,97 GB richiesti dal modello FLUX.2 originale. Durante la fase di esecuzione, il consumo effettivo della memoria RAM viene ulteriormente ottimizzato disattivando l’encoder di testo subito dopo l’elaborazione iniziale del prompt.

I test prestazionali evidenziano l’efficacia dello stack software, che sfrutta i percorsi a basso bit MLX sull’hardware Apple e i kernel GEMM Gemlite su schede video abilitate CUDA. Durante la generazione di un’immagine standard con risoluzione 512×512 pixel, il modello a 1-bit richiede una media di 1,5 GB di memoria attiva, mentre la variante ternaria sale a 1,96 GB.

Sul piano della velocità pura, un iPhone 17 Pro Max è in grado di completare la generazione di un’immagine in 9,4 secondi, laddove il modello FLUX.2 originale non riuscirebbe nemmeno ad avviarsi a causa del superamento del budget di memoria del telefono. Su un computer equipaggiato con processore Mac M4 Pro, il tempo di elaborazione scende a circa 6 secondi, facendo segnare una velocità fino a 5,6 volte superiore rispetto alla pipeline MFLUX standard a piena precisione.

Valutazione qualitativa e disponibilità del codice

L’alleggerimento strutturale dei file acquisisce valore solo se il modello finale mantiene una reale utilità pratica nei compiti di inferenza. PrismML ha sottoposto la famiglia Bonsai a tre diversi benchmark di settore, confrontandone i risultati con soluzioni ampiamente diffuse sul mercato. I test hanno incluso GenEval per valutare la composizione degli oggetti, HPSv3 per la qualità estetica e DPG-Bench per la fedeltà ai prompt complessi.

I dati raccolti dimostrano che la variante Ternary Bonsai Image 4B riesce a preservare ben il 95% dell’accuratezza complessiva del modello originale FLUX.2 Klein 4B, a fronte della già citata riduzione di oltre sei volte del peso del transformer. La versione a 1-bit si attesta invece su un livello di ritenzione della precisione pari all’88%. Entrambe le soluzioni si dimostrano ampiamente competitive con i moderni modelli della classe 4B e superano nettamente in termini di prestazioni qualitative i modelli nativamente più piccoli che occupano la stessa medesima fascia di memoria RAM, come Stable Diffusion 1.5 o PixArt-Σ.

I vantaggi di questo approccio locale risiedono nella natura stessa del processo creativo visivo, che si sviluppa quasi sempre attraverso tentativi iterativi in cui l’utente corregge continuamente la descrizione per affinare il risultato. Eliminando i tempi di attesa della rete e i costi di manutenzione dei server remoti, l’interazione diventa immediata, sicura e totalmente privata. Sia il codice sorgente sia i pesi dei modelli 1-bit e Ternary Bonsai Image 4B sono stati rilasciati pubblicamente con licenza open source Apache 2.0. Contestualmente al lancio, la società ha reso disponibile l’applicazione ufficiale Bonsai Studio per sistemi iOS, permettendo a chiunque possieda un dispositivo compatibile di testare le capacità dei nuovi algoritmi direttamente sul proprio smartphone.

Bonsai Image 4B: Scheda tecnica e confronto dei parametri di memoria

Modello di base architetturale: FLUX.2 Klein 4B
Licenza di distribuzione: Open source Apache 2.0
Pesi effettivi variante 1-bit: 1,125 bit per peso con configurazione binarizzata {-1, +1}
Pesi effettivi variante Ternaria: 1,71 bit per peso con configurazione a tre stati {-1, 0, +1}
Dimensione Transformer 1-bit: 0,93 GB, con una riduzione di 8,3x rispetto alla base
Dimensione Transformer Ternary: 1,21 GB, con una riduzione di 6,4x rispetto alla base
Payload di installazione su Apple Silicon: 3,42 GB per il modello a 1-bit e 3,88 GB per il ternario
Memoria RAM media attiva (risoluzione 512×512): 1,5 GB (1-bit) e 1,96 GB (Ternary)
Memoria RAM media attiva (risoluzione 1024×1024): 1,95 GB (1-bit) e 2,38 GB (Ternary)
Tempo di generazione su iPhone 17 Pro Max (512×512): 9,4 secondi complessivi
Tempo di generazione su Mac M4 Pro (512×512): Circa 6 secondi complessivi
Accuratezza preservata rispetto al modello d’origine: 95% per la versione ternaria e 88% per la versione a 1-bit
Piattaforme e framework supportati: Apple Silicon tramite librerie MLX e schede CUDA tramite kernel Gemlite

Link per il download (Huggingface)