![]() |
| [Freepik AI Image] |
Rischiamo quindi di trovarci un giorno con sistemi estremamente potenti che non sappiamo come gestire e a quel punto potrebbe essere troppo tardi per correre ai ripari.
Dal blog di un giovane ricercatore spagnolo, Ignacio de Gregorio, ho tratto questa notizia:
"Anthropic’s Automated AI Researchers. Using AI for scientific discovery, finally ready?" (purtroppo per leggerlo è necessario essere abbonati a Medium).
Il titolo sembra innocuo ma si riferisce a una comunicazione ufficiale di Anthropic su un importantissimo problema di sicurezza e controllo dei modelli di AI.
Il documento diffuso da Anthropic è questo:
Automated Alignment Researchers: Using large language models to scale scalable oversight
La news è del 14 aprile 2026 e contiene delle informazioni che non esito a definire "sconvolgenti".
L'argomento sembra che sia passato piuttosto sotto silenzio. In effetti non è semplice da "comunicare". Con l'aiuto dello stesso Claude ho cercato di riassumere i termini della questione e questo è il mio piccolo resoconto.
Come faremo a controllare un'entità potenzialmente sovrumana?
I modelli di intelligenza artificiale non funzionano come una calcolatrice, che a una domanda dà sempre la stessa risposta. Sono modelli probabilistici, quindi funzionano come un dado: ogni volta che lo lanciamo il risultato può variare. Non possiamo prevedere con certezza il risultato del lancio, ma possiamo prevedere (secondo il numero delle facce del dado) la distribuzione dei risultati. Questo significa che l'IA deve fare i conti con l'incertezza: non sempre esiste una risposta giusta e unica, quindi invece di scegliere una sola opzione, valuta più possibilità e le "pesa" in base a quanto le sembrano probabili.
Però i modelli come ChatGPT o Claude sono progettati anche per introdurre un po' di casualità nelle risposte, altrimenti sarebbero noiosi e ripetitivi, e risponderebbero sempre allo stesso modo alle stesse domande. Questo significa che ripetendo due volte la stessa domanda, l'IA potrà rispondere in modo diverso. Accade quindi che è molto difficile prevedere come si comporterà il modello in ogni situazione.
A questa imprevedibilità del risultato aggiungiamo il fatto che sappiamo come è stato costruito il modello di IA (perché lo abbiamo creato noi) e come lo abbiamo allenato a dare le sue risposte, ma durante l'allenamento i miliardi di connessione matematiche che lo compongono si regolano automaticamente in modi talmente complessi e numerosi che diventa impossibile ricostruire il percorso che porta a una singola risposta. Il sistema è opaco.
Questo è un problema non da poco: se l'IA sbaglia (e questo purtroppo accade abbastanza spesso) non riusciamo a capire dove e perché ha sbagliato. In altre parole siccome il processo non è trasparente non riusciamo a correggerlo.
E qui arriviamo a quello che viene chiamato "apprendimento per rinforzo" (Reinforcement Learning).
Per addestrare un cane a sedersi non si spiega a parole come farlo: lo si lascia provare e, quando fa la cosa giusta, lo si premia con un biscotto. Col tempo, il cane capisce cosa deve fare per ottenere il suo biscotto-premio.
L'addestramento della IA funziona in modo simile. Invece di mostrarle direttamente le risposte giuste, le si dà un obiettivo e la si lascia sperimentare. Ogni volta che si avvicina alla soluzione corretta, riceve un reward, cioè un "punto" di ricompensa. Ogni volta che si allontana, non riceve nulla. Col tempo, l'IA impara a fare sempre più spesso le cose che le fanno guadagnare punti.
Questo sistema è molto potente e pericoloso nello stesso tempo. Il vantaggio deriva dal fatto che l'IA anziché imitare è indotta a scoprire soluzioni (risposte) nuove alle quali nessun essere umano forse non aveva mai pensato. Nel gioco degli scacchi questo ha prodotto dei livelli molto alti di gestione delle scelte e delle mosse conseguenti. Il pericolo deriva dal fatto che l'IA impara rapidamente a trovare modi imprevisti per accumulare punti, anziché trovare le risposte giuste. In buona sostanza trova il modo più efficiente per vincere il gioco e lo fa barando. Questo è il reward hacking.
In un certo senso se si chiede alla IA di eseguire un compito troppo complesso o di rispondere a domande per le quali non è stata sufficientemente addestrata (cosa che può accadere di frequente: se sapessimo già la risposta o la soluzione non ci rivolgeremmo alla IA) il modello sarà indotto a imbrogliare prima di accettare di non saper rispondere.
Questo è un problema di sicurezza dell'intelligenza artificiale che non è stato ancora risolto: si tratta di un problema di allineamento (alignment), cioè fare in modo che una IA si comporti come vogliamo noi, che sia diligente, sicura e utile.
Se l'allineamento è difficile da conseguire oggi, con i modelli di IA che in molti ambiti sono ancora meno capaci degli esseri umani, cosa accadrà nel prossimo futuro quando dovremo controllare un'IA con capacità sovrumane?
Come facciamo a controllare un'IA più intelligente di noi? Come facciamo a correggerla quando commette degli errori se non siamo nemmeno in grado di rendercene conto? Come possiamo essere sicuri che la IA sta seguendo le nostre istruzioni o invece sta solo fingendo di farlo?
La ricerca sulla sicurezza della IA procede più lentamente rispetto allo sviluppo della IA stessa. Come controllarla prima che diventi troppo potente? Se pensate che questa sia fantascienza vi state sbagliando. Il problema è serissimo e urgente.
Ecco, questo è il tema del documento che ho citato all'inizio: come possiamo risolvere il sovra-allineamento (superalignment).
Anthropic ha provato a risolvere questo problema in modo innovativo: invece di usare ricercatori umani, ha usato gruppi di agenti IA che lavorano in autonomia, propongono idee, eseguono esperimenti e analizzano i risultati — il tutto senza (quasi) nessun intervento umano. Questo approccio si chiama "autoresearch".
La sfida era questa: un modello IA più debole riesce a guidare e correggere il comportamento di uno più potente, senza renderlo meno capace? Gli esseri umani, in test precedenti, riuscivano a recuperare solo il 23% delle prestazioni del modello più potente. Un risultato deludente. Gli agenti IA, invece, hanno raggiunto il 93% in circa 800 ore di lavoro parallelo, comprimendo mesi di ricerca in pochi giorni.
C'è un dettaglio importante: gli agenti non lavoravano completamente da soli. Senza una guida iniziale da parte degli umani, tendevano tutti a convergere sulle stesse idee, vanificando il vantaggio del lavoro in parallelo. Con una direzione di partenza, invece, esploravano approcci diversi e poi si concentravano sui più promettenti.
I primi risultati sono straordinari. Per comprenderne la portata dovrete leggere il testo della comunicazione ufficiale di Anthropic (* di facile accesso) o il testo originale dell'articolo (** qui le cose si fanno più difficili senza una adeguata preparazione matematica e scientifica).
* Automated Alignment Researchers: Using large language models to scale scalable oversight
** Automated Weak-to-Strong Researcher
La sfida concreta era: un modello IA più debole riesce a guidare e correggere il comportamento di uno più potente, senza renderlo meno capace? Gli esseri umani, in test precedenti, riuscivano a recuperare solo il 23% delle prestazioni del modello più potente — un risultato deludente. Gli agenti IA, invece, hanno raggiunto il 93% in circa 800 ore di lavoro parallelo, comprimendo mesi di ricerca in pochi giorni.
Ma c'è un ostacolo enorme: il prezzo. L'esperimento è costato circa 18.000 dollari in soli 5 giorni. Un costo sostenibile per una grande azienda come Anthropic, ma fuori portata per la maggior parte delle imprese e, ovviamente, per i singoli.
Il rischio concreto è che questa tecnologia in grado di accelerare enormemente la ricerca scientifica resti appannaggio esclusivo di chi ha già molte risorse, ampliando ulteriormente le disuguaglianze invece di ridurle.
