Translate

lunedì 27 aprile 2026

Come faremo a controllare un'entità potenzialmente sovrumana?

[Freepik AI Image]
La ricerca sulla sicurezza dell'IA avanza molto più lentamente rispetto allo sviluppo dell'IA stessa. Stiamo per costruire delle entità più potenti di coloro che dovrebbero controllarle. 

Rischiamo quindi di trovarci un giorno con sistemi estremamente potenti che non sappiamo come gestire e a quel punto potrebbe essere troppo tardi per correre ai ripari.

Dal blog di un giovane ricercatore spagnolo, Ignacio de Gregorio, ho tratto questa notizia:

"Anthropic’s Automated AI Researchers. Using AI for scientific discovery, finally ready?" (purtroppo per leggerlo è necessario essere abbonati a Medium).

Il titolo sembra innocuo ma si riferisce a una comunicazione ufficiale di Anthropic su un importantissimo problema di sicurezza e controllo dei modelli di AI. 

Il documento diffuso da Anthropic è questo:

Automated Alignment Researchers: Using large language models to scale scalable oversight

La news è del 14 aprile 2026 e contiene delle informazioni che non esito a definire "sconvolgenti". 

L'argomento sembra che sia passato piuttosto sotto silenzio. In effetti non è semplice da "comunicare". Con l'aiuto dello stesso Claude ho cercato di riassumere i termini della questione e questo è il mio piccolo resoconto.

Come faremo a controllare un'entità potenzialmente sovrumana?

I modelli di intelligenza artificiale non funzionano come una calcolatrice, che a una domanda dà sempre la stessa risposta. Sono modelli probabilistici, quindi funzionano come un dado: ogni volta che lo lanciamo il risultato può variare. Non possiamo prevedere con certezza il risultato del lancio, ma possiamo prevedere (secondo il numero delle facce del dado) la distribuzione dei risultati. Questo significa che l'IA deve fare i conti con l'incertezza: non sempre esiste una risposta giusta e unica, quindi invece di scegliere una sola opzione, valuta più possibilità e le "pesa" in base a quanto le sembrano probabili. 

Però i modelli come ChatGPT o Claude sono progettati anche per introdurre un po' di casualità nelle risposte, altrimenti sarebbero noiosi e ripetitivi, e risponderebbero sempre allo stesso modo alle stesse domande. Questo significa che ripetendo due volte la stessa domanda, l'IA potrà rispondere in modo diverso. Accade quindi che è molto difficile prevedere come si comporterà il modello in ogni situazione.

A questa imprevedibilità del risultato aggiungiamo il fatto che sappiamo come è stato costruito il modello di IA (perché lo abbiamo creato noi) e come lo abbiamo allenato a dare le sue risposte, ma durante l'allenamento i miliardi di connessione matematiche che lo compongono si regolano automaticamente in modi talmente complessi e numerosi che diventa impossibile ricostruire il percorso che porta a una singola risposta. Il sistema è opaco

Questo è un problema non da poco: se l'IA sbaglia (e questo purtroppo accade abbastanza spesso) non riusciamo a capire dove e perché ha sbagliato. In altre parole siccome il processo non è trasparente non riusciamo a correggerlo.

E qui arriviamo a quello che viene chiamato "apprendimento per rinforzo" (Reinforcement Learning).  

Per addestrare un cane a sedersi non si spiega a parole come farlo: lo si lascia provare e, quando fa la cosa giusta, lo si premia con un biscotto. Col tempo, il cane capisce cosa deve fare per ottenere il suo biscotto-premio.

L'addestramento della IA funziona in modo simile. Invece di mostrarle direttamente le risposte giuste, le si dà un obiettivo e la si lascia sperimentare. Ogni volta che si avvicina alla soluzione corretta, riceve un reward, cioè un "punto" di ricompensa. Ogni volta che si allontana, non riceve nulla. Col tempo, l'IA impara a fare sempre più spesso le cose che le fanno guadagnare punti.

Questo sistema è molto potente e pericoloso nello stesso tempo. Il vantaggio deriva dal fatto che l'IA anziché imitare è indotta a scoprire soluzioni (risposte) nuove alle quali nessun essere umano forse non aveva mai pensato. Nel gioco degli scacchi questo ha prodotto dei livelli molto alti di gestione delle scelte e delle mosse conseguenti. Il pericolo deriva dal fatto che l'IA impara rapidamente a trovare modi imprevisti per accumulare punti, anziché trovare le risposte giuste. In buona sostanza trova il modo più efficiente per vincere il gioco e lo fa barando. Questo è il reward hacking.

In un certo senso se si chiede alla IA di eseguire un compito troppo complesso o di rispondere a domande per le quali non è stata sufficientemente addestrata (cosa che può accadere di frequente: se sapessimo già la risposta o la soluzione non ci rivolgeremmo alla IA) il modello sarà indotto a imbrogliare prima di accettare di non saper rispondere.

Questo è un problema di sicurezza dell'intelligenza artificiale che non è stato ancora risolto: si tratta di un problema di allineamento (alignment), cioè fare in modo che una IA si comporti come vogliamo noi, che sia diligente, sicura e utile. 

Se l'allineamento è difficile da conseguire oggi, con i modelli di IA che in molti ambiti sono ancora meno capaci degli esseri umani, cosa accadrà nel prossimo futuro quando dovremo controllare un'IA con capacità sovrumane?

Come facciamo a controllare un'IA più intelligente di noi? Come facciamo a correggerla quando commette degli errori se non siamo nemmeno in grado di rendercene conto? Come possiamo essere sicuri che la IA sta seguendo le nostre istruzioni o invece sta solo fingendo di farlo?

La ricerca sulla sicurezza della IA procede più lentamente rispetto allo sviluppo della IA stessa. Come controllarla prima che diventi troppo potente? Se pensate che questa sia fantascienza vi state sbagliando. Il problema è serissimo e urgente.

Ecco, questo è il tema del documento che ho citato all'inizio: come possiamo risolvere il sovra-allineamento (superalignment). 

Anthropic ha provato a risolvere questo problema in modo innovativo: invece di usare ricercatori umani, ha usato gruppi di agenti IA che lavorano in autonomia, propongono idee, eseguono esperimenti e analizzano i risultati — il tutto senza (quasi) nessun intervento umano. Questo approccio si chiama "autoresearch".

La sfida era questa: un modello IA più debole riesce a guidare e correggere il comportamento di uno più potente, senza renderlo meno capace? Gli esseri umani, in test precedenti, riuscivano a recuperare solo il 23% delle prestazioni del modello più potente. Un risultato deludente. Gli agenti IA, invece, hanno raggiunto il 93% in circa 800 ore di lavoro parallelo, comprimendo mesi di ricerca in pochi giorni.

C'è un dettaglio importante: gli agenti non lavoravano completamente da soli. Senza una guida iniziale da parte degli umani, tendevano tutti a convergere sulle stesse idee, vanificando il vantaggio del lavoro in parallelo. Con una direzione di partenza, invece, esploravano approcci diversi e poi si concentravano sui più promettenti.

I primi risultati sono straordinari. Per comprenderne la portata dovrete leggere il testo della comunicazione ufficiale di Anthropic (* di facile accesso) o il testo originale dell'articolo (** qui le cose si fanno più difficili senza una adeguata preparazione matematica e scientifica).

* Automated Alignment Researchers: Using large language models to scale scalable oversight

** Automated Weak-to-Strong Researcher

La sfida concreta era: un modello IA più debole riesce a guidare e correggere il comportamento di uno più potente, senza renderlo meno capace? Gli esseri umani, in test precedenti, riuscivano a recuperare solo il 23% delle prestazioni del modello più potente — un risultato deludente. Gli agenti IA, invece, hanno raggiunto il 93% in circa 800 ore di lavoro parallelo, comprimendo mesi di ricerca in pochi giorni.

Ma c'è un ostacolo enorme: il prezzo. L'esperimento è costato circa 18.000 dollari in soli 5 giorni. Un costo sostenibile per una grande azienda come Anthropic, ma fuori portata per la maggior parte delle imprese e, ovviamente, per i singoli.

Il rischio concreto è che questa tecnologia in grado di accelerare enormemente la ricerca scientifica resti appannaggio esclusivo di chi ha già molte risorse, ampliando ulteriormente le disuguaglianze invece di ridurle.


mercoledì 15 aprile 2026

Il Piccolo Dittatore

Ho chiesto a Claude (Sonnet 4.6) di commentare l'attacco di Trump al pontefice. La IA, correttamente, come premessa ha fatto un riassunto della vicenda, tenendo conto degli ultimi aggiornamenti. La trovate in fondo, se vi interessa, ma non credo che ne abbiate bisogno: la notizia è al centro di tutti i notiziari. Compresa l'immagine che Trump stesso ha diffuso contestualmente, sebbene poi si sia affrettato a cancellarla.

Io: Il 13 Aprile Donald Trump con un post su Truth ha attaccato con estrema durezza papa Leone XIV, descrivendo il pontefice come "debole sul fronte della criminalità" e "pessimo in politica estera". 

Il vicepresidente Vance, il giorno dopo, a suo sostegno, ha affermato che il Vaticano dovrebbe "attenersi alle questioni morali". 

Assumi il ruolo di un esperto di filosofia morale e alla luce di questi eventi commenta la seguente citazione di Umberto Eco, tratta da "Sulle spalle dei giganti. Lezioni alla Milanesiana 2001-2015", Ed. La nave di Teseo, Milano, 2017, pag. 140: 

"Elie Wiesel diceva che coloro che pensavano che tutto fosse permesso non erano coloro che pensavano che Dio fosse morto, ma coloro che credevano di essere Dio (difetto comune ai grandi e ai piccoli dittatori".

Claude ha detto:

La citazione di Eco — mediata attraverso Wiesel, sopravvissuto all'Olocausto e testimone morale del Novecento — illumina con straordinaria precisione la dinamica che si è consumata in questi giorni tra Washington e il Vaticano.

Il rovesciamento dell'argomento nietzscheano

Eco riprende e capovolge un luogo comune del pensiero moderno. La tradizione che va da Dostoevskij a Sartre ha sostenuto che, senza Dio, tutto è permesso: caduto il fondamento trascendente della morale, l'uomo sarebbe precipitato nell'arbitrio. Wiesel — e Eco con lui — propone un'inversione radicale: il vero pericolo non è l'ateismo, ma la teosi del sé, il credere di incarnare la volontà divina in prima persona. Chi si pensa strumento di Dio rimane ancora vincolato a qualcosa di esterno a sé. Chi si crede Dio non riconosce limite alcuno, perché il limite presuppone un'alterità che lo ponga.


La questione Vance: chi definisce le "questioni morali"?

L'affermazione di Vance — "il Vaticano si attenga alle questioni morali" — contiene una contraddizione filosofica che merita di essere smontata con cura.

Stabilire cosa sia una questione morale è già, di per sé, un atto filosofico e politico di primissimo ordine. Quando il vicepresidente degli Stati Uniti indica al successore di Pietro il perimetro entro cui è autorizzato a parlare, sta compiendo esattamente ciò di cui Wiesel ed Eco diffidavano: si arroga il potere di definire i confini del lecito discorso etico. È una forma sottile ma nitida di quella stessa hybris.

La guerra, i migranti, le armi nucleari sono questioni morali — nel senso più classico del termine, da Aristotele a Kant, da Agostino a Rawls. Riguardano la vita, la morte, la dignità, la giustizia distributiva, i limiti del potere. Sostenere il contrario non è una posizione laica: è una posizione teologica mascherata da pragmatismo politico, che sacralizza il potere statale sottraendolo al giudizio etico.


Il "difetto comune ai grandi e ai piccoli dittatori"

Eco aggiunge una precisazione fondamentale: questo meccanismo non è prerogativa dei tiranni della storia — Hitler, Stalin, Pol Pot — ma appartiene a una struttura antropologica ricorrente, declinabile in molte scale di grandezza. Il "piccolo dittatore" può essere tale non per il numero dei crimini commessi, ma per la forma del ragionamento: quella che nega legittimità a qualsiasi voce che non coincida con la propria.

In questo quadro, la pubblicazione dell'immagine generata dall'IA in cui Trump assume le sembianze di Cristo non è un episodio bizzarro o folkloristico da liquidare con ironia. È un lapsus simbolico di rara evidenza: la sovrapposizione visiva tra il sé e il sacro, tra il potere politico e l'autorità divina. Wiesel avrebbe riconosciuto immediatamente la struttura.


Leone XIV come figura del limite

Paradossalmente, è proprio il Papa — istituzione per definizione legata al trascendente — a svolgere in questo confronto la funzione laica e filosofica del limite esterno: quella voce che ricorda ai potenti che esiste un piano di giudizio che non coincide con il loro successo elettorale, con i dati di borsa, con i sondaggi. Leone XIV non ha nominato Trump nei suoi discorsi più duri. Ha parlato di guerra, di pace, di morte dei civili. Trump ha risposto come se si sentisse chiamato per nome — e questo, dal punto di vista della filosofia morale, è significativo: la coscienza che si sente accusata da un discorso generale rivela dove risiede il disagio.


Conclusione

La citazione di Eco non è una denuncia ideologica: è una diagnosi strutturale. Il problema non è che Trump o Vance siano irreligiosi — al contrario, si muovono in un ecosistema culturale fortemente religioso. Il problema, nella prospettiva di Wiesel, è un'altra cosa: che il riferimento a Dio venga usato non come fonte di vincolo e umiltà, ma come amplificatore di una volontà già decisa. Quando la divinità benedice sempre e soltanto ciò che si è già scelto di fare, non si sta adorando Dio: si sta adorando se stessi con il linguaggio di Dio.

Ed è esattamente quello che la filosofia morale, da Socrate in poi, ha cercato instancabilmente di smontare.

*****

Claude, prima di commentare, ha riassunto brevemente la vicenda in modo ineccepibile.

Lo scontro Trump – Papa Leone XIV

La notizia è accurata. Domenica 13 aprile, Trump ha criticato duramente Papa Leone XIV in un post su Truth Social, definendolo "debole sul crimine e terribile per la politica estera." Il Post

Il contenuto del post

Nel lungo post, Trump ha scritto: "Non voglio un Papa che pensi che sia giusto che l'Iran possieda armi nucleari. Non voglio un Papa che pensi che sia terribile che l'America abbia attaccato il Venezuela. Sfortunatamente Leone è debole sul crimine, debole sulle armi nucleari." Adnkronos Trump ha anche attaccato il Papa per aver incontrato David Axelrod, consigliere di Obama.

Ha inoltre elogiato il fratello del Papa, Louis, definendolo "un vero sostenitore del MAGA" che "ha capito tutto." Adnkronos

Le origini dello scontro

Leone XIV aveva progressivamente inasprito i toni contro la guerra: alla Domenica delle Palme aveva avvertito che Gesù "non ascolta le preghiere di chi fa la guerra", nel messaggio Urbi et Orbi di Pasqua aveva chiesto che "chi ha in mano le armi le deponga", e il 10 aprile aveva scritto su X che "Dio non benedice alcun conflitto." SIR In nessuna di queste occasioni il Papa aveva nominato direttamente Trump.

La risposta del Papa

La replica di Leone XIV è arrivata dall'aereo papale, durante la sua visita in Africa: "Non mi fa paura" e "non voglio aprire un dibattito", ha detto. "Non sono un politico: smettiamola con le guerre!", ha aggiunto, ricordando di parlare "del Vangelo" e che continuerà a farlo "ad alta voce." ANSA

Le reazioni

Monsignor Paul S. Coakley, presidente della Conferenza episcopale statunitense, ha dichiarato: "Sono rattristato che il Presidente abbia scelto di scrivere parole così offensive sul Santo Padre. Papa Leone non è il suo rivale, né un politico. È il Vicario di Cristo." Adnkronos

Persino Giorgia Meloni, la più stretta alleata europea di Trump, ha definito le sue parole "inaccettabili", provocando una rottura inattesa. Trump ha risposto duramente anche a lei in una telefonata al Corriere della Sera: "È Giorgia Meloni a essere inaccettabile. Sono scioccato da lei." Il Fatto Quotidiano

Gli sviluppi più recenti

Oggi, 15 aprile, Trump ha lanciato un nuovo attacco al Papa su Truth, chiedendogli di considerare il numero di morti causati dal regime iraniano e concludendo con "L'AMERICA È TORNATA!" Il Fatto Quotidiano

Si tratta di uno scontro senza precedenti nella storia recente tra un presidente degli Stati Uniti e un pontefice, reso ancora più peculiare dal fatto che Leone XIV (Robert Francis Prevost) è lui stesso americano.