Cos’è la quantizzazione nel machine learning?
19 Dicembre 2025

La quantizzazione è una tecnica fondamentale nel campo dell’intelligenza artificiale (AI) e del machine learning, specialmente quando si tratta di ottimizzare modelli complessi come i Large Language Models (LLM). Ma cosa significa veramente quantizzazione? Qual è il suo scopo, come funziona e perché è così importante oggi? Per capirlo, bisogna prima collocare il termine nel giusto contesto e distinguere il suo uso nella teoria digitale da altri ambiti in cui la parola può comparire, come la quantizzazione chimica. Scopriamolo assieme in questo articolo.

Quantizzazione: significato generale

La quantizzazione nel machine learning è una tecnica che riduce la precisione numerica dei modelli per diminuire consumo di memoria e tempi di calcolo, mantenendo prestazioni simili e rendendo l’AI più efficiente su dispositivi con risorse limitate.

Quindi, in buona sostanza, nel linguaggio più ampio dell’informatica, il termine quantizzazione si riferisce alla riduzione della precisione di un segnale o di una rappresentazione numerica, ossia alla trasformazione di dati da una forma a maggiore precisione a un’altra con precisione inferiore. Questo concetto nasce nella teoria dei segnali, dove i segnali analogici — che hanno un valore continuo — vengono convertiti in sequenze numeriche discrete per essere elaborati da computer digitali.

Nel contesto del machine learning, la quantizzazione ha un significato molto simile: è un processo di compressione dei dati o dei parametri di un modello riducendo il numero di bit usati per rappresentarli. In questo modo, un modello che originariamente usa formati numerici di alta precisione (come FP32, cioè numeri in virgola mobile a 32 bit) può essere convertito in un modello che usa formati a precisione inferiore (come INT8, cioè interi a 8 bit) con una riduzione nelle dimensioni complessive e nei requisiti computazionali.

Quantizzazione nel machine learning

Nel machine learning, soprattutto nei modelli di deep learning, le reti neurali sono composte da milioni o miliardi di pesi e attivazioni, ovvero valori numerici che definiscono come il modello risponde a un input. Questi valori sono tradizionalmente memorizzati come numeri in virgola mobile (ad esempio FP32) poiché ciò consente maggiore precisione durante l’addestramento e l’inferenza del modello. Tuttavia, usare numeri ad alta precisione è costoso dal punto di vista della memoria e della potenza di calcolo.

La quantizzazione nel machine learning consiste nel convertire questi pesi e attivazioni da formati numerici ad alta precisione a formati a precisione inferiore (ad esempio da FP32 a INT8). Questo processo riduce drasticamente la quantità di memoria richiesta e accelera i calcoli, permettendo di eseguire modelli anche su dispositivi con risorse limitate, come smartphone o hardware edge.

Perché la quantizzazione è importante per l’AI?

Nel mondo dell’AI, la velocità e l’efficienza sono fondamentali: molte applicazioni richiedono risposte rapide e l’uso di risorse computazionali limitate.

La quantizzazione permette di:

  • ridurre il tempo di inferenza: modelli quantizzati elaborano le richieste più rapidamente perché i calcoli con numeri interi richiedono meno cicli di CPU o GPU rispetto ai numeri floating-point;
  • ridurre l’uso di memoria e di potenza: con meno bit da memorizzare e processare, il modello consuma meno energia, cosa fondamentale su dispositivi mobili e sistemi embedded;
  • rendere i modelli più accessibili: modelli quantizzati possono essere eseguiti su hardware più economico o meno avanzato, ampliando così l’adozione dell’AI anche in scenari con risorse limitate.

Questa combinazione di vantaggi rende la quantizzazione una tecnica di ottimizzazione chiave per l’AI moderna.

Quantizzazione LLM: ottimizzazione dei modelli linguistici

Un settore in cui la quantizzazione ha un impatto enorme è quello dei modelli linguistici di grandi dimensioni (Large Language Models – LLM). Questi modelli, come GPT-3, GPT-4 o LLaMA, includono miliardi di parametri che rappresentano le relazioni complesse tra parole, frasi e concetti. Mantenere questi valori in formati numerici a 32 bit richiede enormi quantità di memoria e potenza computazionale.

La Quantizzazione LLM è la specifica applicazione della quantizzazione a questi modelli: taglia il numero di bit necessari per rappresentare ciascun parametro riducendo così lo spazio di archiviazione e i requisiti computazionali. Ad esempio, convertire un modello da FP32 a INT8 può ridurre la dimensione del modello fino a quattro volte, senza una perdita significativa di qualità nelle risposte generate.

Questo processo rende possibile eseguire LLM su dispositivi meno potenti o in ambienti dove le risorse sono limitate, come nei server con costi di GPU elevati o nei dispositivi mobili. Inoltre, la quantizzazione aiuta a diminuire la latenza d’inferenza, aspetto cruciale per applicazioni in tempo reale, come assistenti virtuali o chatbot intelligenti.

Come funziona la quantizzazione tecnica

Il processo di quantizzazione nel machine learning si basa su algoritmi che decidono come mappare valori numerici ad alta precisione a rappresentazioni a precisione inferiore. Per capire meglio, immaginiamo che ciascun valore in virgola mobile sia proiettato nel nuovo insieme di valori interi possibili. Poiché formati come INT8 offrono solo 256 valori possibili (contro miliardi di valori possibili con FP32), questa proiezione implica inevitabilmente una perdita di precisione, ovvero un errore di quantizzazione.

Esistono vari metodi per quantizzare un modello, ovvero:

  1. Quantizzazione post-training (PTQ) ― applicata dopo che il modello è stato addestrato, senza ulteriori modifiche ai dati di training. Questo metodo è rapido e non richiede tanti dati, ma può degradare leggermente la precisione generale del modello;
  2. Quantizzazione aware-training (QAT) ― integrata durante l’addestramento o la messa a punto del modello, dove il processo simula la quantizzazione fin dall’inizio per minimizzare gli effetti negativi sull’accuratezza. Questo approccio tende a produrre risultati migliori ma è più costoso in termini computazionali;
  3. Quantizzazione dinamica vs statica ― tecniche che determinano come calibrare e applicare la quantizzazione a vari gruppi di dati all’interno del modello.

Ognuna di queste strategie cerca di bilanciare la precisione residua del modello con i benefici in termini di velocità, efficienza e riduzione dei costi computazionali.

Quantizzazione vs altri concetti affini

È importante non confondere la quantizzazione nel machine learning con altri usi del termine in discipline diverse. Ad esempio, nella quantizzazione chimica, il termine potrebbe riferirsi alla quantizzazione dell’energia a livello atomico o molecolare, come avviene nella meccanica quantistica, dove gli elettroni possono occupare solo determinati livelli energetici definiti. In questo contesto, la quantizzazione non ha nulla a che vedere con la compressione dei modelli AI, ma piuttosto con fenomeni fisici fondamentali su scala microscopica.

Limiti e rischi della quantizzazione

Nonostante i vantaggi, la quantizzazione non è priva di compromessi. Ridurre la precisione numerica può introdurre errori di quantizzazione che si accumulano e potenzialmente degradano l’accuratezza del modello, specialmente nei casi in cui i modelli sono immensamente grandi o esigenti in termini di precisione.

Inoltre, alcune tecniche di quantizzazione più avanzate richiedono risorse computazionali significative, particolarmente quando integrate nella fase di addestramento (come avviene con QAT). Questo può rendere la quantizzazione una scelta più costosa se non viene pianificata correttamente.

Il futuro della quantizzazione nell’AI

La quantizzazione AI è un campo in rapida evoluzione. Con l’aumento delle dimensioni dei modelli e la crescente domanda di applicazioni intelligenti in tempo reale, la comunità di ricerca continua a sviluppare tecniche più sofisticate per bilanciare efficienza e precisione.

Gli sviluppi includono metodi per mantenere alte prestazioni anche con bit molto bassi (ad esempio INT4 o inferiori), tecniche avanzate di calibrazione e algoritmi che permettono quantizzazione quasi “trasparente” agli utenti finali. Questi progressi permettono di far girare modelli sempre più potenti anche su hardware meno potente, democratizzando l’accesso alle tecnologie AI in tutto il mondo.

Credits: Peshkova / Getty Images Pro

Articoli Correlati

Chiedi informazioni

Lascia i tuoi dati e verrai ricontattato da un consulente Unicusano per l’orientamento

    Si autorizza il trattamento dei dati inseriti PER LE FINALITÀ INDICATE AL PUNTO 4 DELL'INFORMATIVA sopra indicata, ai sensi del REGOLAMENTO UE 2016/679 E del decreto legislativo 196/2003



    Chiedi informazioni
    Lascia i tuoi dati e verrai ricontattato da un consulente Unicusano per l’orientamento

      Si autorizza il trattamento dei dati inseriti PER LE FINALITÀ INDICATE AL PUNTO 4 DELL'INFORMATIVA sopra indicata, ai sensi del REGOLAMENTO UE 2016/679 E del decreto legislativo 196/2003