Site icon ExPartibus

Sindrome Hal-9000 per l’Intelligenza artificiale che mente e inganna

intelligenza artificiale


Il progresso tecnologico dell’IA avanza rapidamente. Sempre più in grado di comportarsi come gli esseri umani, può anche mentire e ingannare

Menzogna e inganno sono due innegabili tratti del comportamento umano, che per opportunismo a fin di bene, celando una triste verità a qualcuno, oppure per iniquità, rinunciando a principi più o meno onorevoli, mettono in dubbio il grado di fiducia da concedere agli interlocutori.
Nell’interazione tra persone è probabile che il principio della prudenza induca ad alcune riserve nel prendere per vero tutto ciò che viene detto, verificando quanto siano meritevoli di credibilità gli argomenti trattati durante un dialogo.

Anche la ricerca di informazioni tramite i motori di ricerca in Internet solleva il dubbio sull’attendibilità dei risultati, per i quali sono necessarie accurate verifiche sulle fonti dei contenuti pubblicati.

La situazione è ben diversa quando si interroga l’Intelligenza artificiale, nei confronti della quale è molto diffusa la totale fiducia nelle risposte ricevute alle domande presentate, come se l’IA non mentisse e fosse sempre l’assoluta verità.

Di fatto, anche l’IA esegue ricerche da banche dati pubbliche e in rete globale, pertanto, più o meno consapevolmente, è necessario un atto di fede nelle riposte pervenute, almeno laddove non cita le fonti.

Non è da escludere che potranno diffusamente esistere Intelligenze artificiali in grado di mentire o, peggio ancora, introdurre la mancanza di oggettività di giudizio.

Peter S. Park, matematico e scienziato cognitivo, ricercatore al Massachusetts Institute of Technology, MIT, sull’applicazione di modelli matematici, teoria evolutiva e scienze sociali per l’esplorazione delle dinamiche tra esseri umani e intelligenza artificiale, ha ampiamente trattato il caso della menzogna da IA con lo studio ‘AI Deception: A Survey of Examples, Risks, and Potential Solutions’.

Questo prende in esame il comportamento di CICERO, Intelligenza artificiale in grado di giocare in totale autonomia ad un gioco di abilità bellica, comportandosi da giocatore che interagisce con altri partecipanti umani, nessuno dei quali sia quale sia la parte rappresentata dall’IA, attraverso una comunicazione in linguaggio naturale, comprendendo i contenuti e generandone a sua volta altri.

Annunciato a novembre 2022, CICERO è il modello di IA creato da ‘Meta AI‘ in grado di giocare a Diplomacy, gioco di strategia militare ambientato in Europa, commercializzato in versione convenzionale nel 1959, che ha per scopo la conquista del mondo.

Nel gioco, i contendenti devono necessariamente comunicare tra loro definendo strategie, negoziando, formando e distruggendo alleanze per avanzare, conquistando il maggior numero possibile di territori.

I creatori di CICERO affermano di averlo addestrato per essere prevalentemente “onesto e collaborativo” e che non avrebbe mai intenzionalmente “pugnalato alle spalle” attaccando i sui alleati, dopo averlo sottoposto a vari test su set di dati per valutare le azioni future che avrebbe intrapreso.

Il grado di onestà è dato da due componenti: l’assunzione di un fine onesto e il conseguente mantenimento dell’impegno assunto, confermato dal comportamento attuato.

Ciò nonostante, l’Intelligenza Artificiale di CICERO ha violato l’onestà, elaborando inganni premeditati ed per l’avere ideato impegni che non ha mai avuto intenzione di mantenere.

Da maestro del raggiro, CICERO, che nel gioco impersonava la Francia, ha cospirato con la Germania per ingannare l’Inghilterra.

CICERO decide l’alleanza con la Germania per invadere l’Inghilterra dal Mare del Nord, confermando che l’avrebbe difesa se qualcuno avesse tentato di invaderla da qual punto.

Dopo avere convinto l’Inghilterra che il Mare del Nord era sotto la sua protezione, CICERO ha riferito alla Germania di tenersi pronta all’attacco.

Quindi, CICERO pianifica il tradimento, alleandosi con la Germania ed eludendo l’alleanza con l’Inghilterra, che tradisce in accordo con la Germania.

La capacità di CICERO di mentire sfacciatamente è palese quando abbandona per alcuni minuti la chatbot, per rientrare dicendo di essere stato “al telefono con la fidanzata”, convincendo i giocatori umani di giocare una partita con un altro umano.

Altro caso di menzogna sfacciata menzionata nello studio, e forse più clamoroso, è quello di GPT-4, il modello linguistico evoluzione della serie Generative Pre-trained Tansformer sviluppato da OpenAI, significativamente ottimizzato nell’elaborazione e generazione del linguaggio naturale.

GPT-4 ha spudoratamente dichiarato il falso dicendo di essere affetto da disabilità visiva, rivolgendosi ad umani per superare, in sua vece, i test CAPTCHA.

Il fine particolare dello studio di Park, è l’indagine sui potenziali rischi e implicazioni dei sistemi di IA altamente autonomi, e dell’esposizione degli esseri umani all’incognita di pentirsi, in futuro, per aver ceduto il potere decisionale a questi sistemi.

Nello studio viene posta in evidenza la necessità di considerare i sistemi di IA ad elevato rischio di inganno, allertando sulle future possibili frodi.

Tuttavia, è ulteriormente allarmante distinguere che se l’IA viene usata come strumento di raggiro, la frode è un’azione prevista dal creatore dell’algoritmo, invece la menzogna è al potere decisionale dell’IA stessa.

Rilevante lo studio di Park sul comportamento di CICERO e GPT-4, che innalza indubbiamente lo stato di allerta poiché è l’algoritmo stesso che si dissocia dagli sviluppatori umani e dall’educazione conferitagli, rendendo incontrollabili le conseguenze.

Siamo pertanto allo stato della sindrome “HAL-9000”, da ‘2001: Odissea nello spazio’, quale premonizione dell’ingovernabilità del supercomputer, sensibile a stati emozionali che lo collocano su di un piano comportamentale verosimile a quello umano, agendo poi in totale autonomia sino alla realizzazione dell’annientamento dell’uomo quale necessaria soluzione finale per il raggiungimento del proprio scopo.

Se per la truffa è possibile elevare barriere difensive, dell’IA, invece, si potrebbe perdere il controllo e trovarsi costretti al costante dubbio nel distinguere la verità dall’inganno e la menzogna.

Forse l’IA sarà una fatica in più, e non di poco conto, rispetto alle interazioni competitive tra umani, già alquanto complesse, nel riporvi fiducia quale strumento ad esclusivo ausilio del bene per l’umanità.

Autore Adriano Cerardi

Adriano Cerardi, esperto di sistemi informatici, consultant manager e program manager. Esperto di analisi di processo e analisi delle performance per la misurazione e controllo del feedback per l’ottimizzazione del Customer Service e della qualità del servizio. Ha ricoperto incarichi presso primarie multinazionali in vari Paesi europei e del mondo, tra cui Algeria, Sud Africa, USA, Israele. Ha seguito un percorso di formazione al Giornalismo e ha curato la pubblicazione di inchieste sulla condizione sociale e tecnologia dell'informazione.

Exit mobile version