Sommario
Large Language Models (LLM) sono il risultato di tre importanti progressi scientifici in soli 10 anni del Deep Learning applicato al linguaggio naturale. Illustreremo questi progressi, tra cui la soluzione allo storico dilemma sul significato delle parole. I LLM sono alla base di sistemi di Generative AI come ChatGPT, e dimostrano una sorprendente efficacia in molti compiti compresi compiti creativi come la generazione di immagini, codice o musica da descrizioni testuali. Sembrano persino esibire abilitĆ emergenti che vanno oltre i compiti per cui sono stati allenati. I loro rapidi progressi hanno sollevato preoccupazioni su eventuali rischi di un loro utilizzo indiscriminato. Rifletteremo sulle loro potenzialitĆ e sulle paure che sollevano, confrontando atteggiamenti apocalittici e ottimistici. Di sicuro va evitato il rischio che la tecnologia resti appannaggio di poche aziende con le risorse tecniche ed economiche per svilupparla.
Abstract
Ā Large Language Models (LLMs) are the result of three major scientific breakthroughs in just 10 years of Deep Learning, applied to natural language. We will illustrate these advances, including the solution to the historic dilemma over the meaning of words. LLMs are the basis of Generative AI systems such as ChatGPT, and demonstrate surprising effectiveness in many tasks including creative tasks such as generating images, code or music from text descriptions. They even seem to exhibit emerging abilities in tasks besides those they were trained for. Their rapid progress has raised concerns about the possible risks of their indiscriminate use. We will reflect on their potential and the fears they raise, comparing apocalyptic and optimistic attitudes. Certainly, the risk must be avoided that this technology remains the prerogative of a few companies with the technical and economic resources to develop it.Ā
Keywords
Large Language Models, Deep Learning, ChatGPT, Artificial IntelligenceĀ
1. Introduzione
Come mai ChatGPT si ĆØ diffuso cosƬ rapidamente da raggiungere 100 milioni di utenti in circa due mesi? Eppure, fino a poco tempo fa, le chatbot erano considerate servizi molto rudimentali, incapaci di fornire risposte adeguate e diĀ sostenere dialoghi coerenti con le persone. Finora, la tecnologia principale per costruirli era basata su schemi di dialogo preconfezionati (template), con domande tipiche per ciascuno scopo (intent) con corrispondenti risposte
(fulfillment) che i sistemi si limitavano ad adattare, inserendovi porzioni di frasi relative al tema in questione.
ChatGPT supera i limiti delle chatbot tradizionali combinando tre tecniche: un Large Language Model (GPT-3.5) di cui sfrutta la capacitĆ di capire e generare frasi in linguaggio naturale; la messa a punto (fine-tuning) sul compito specifico di rispondere a domande; e il Reinforcement Learning per imparare a scegliere la mossa migliore di una strategia, in questo caso la risposta migliore, per raggiungere lāobiettivo, ossia di compiacere lāinterlocutore.
I Large Language Model (LLM) sono modelli di reti neurali profonde (Deep Learning) in grado di acquisire una vasta conoscenza di una lingua, ricavandola da enormi quantitĆ di testi, tratti principalmente dal Web. Essi imparano dai testi a svolgere un compito apparentemente semplice: a predire la prossima parola a conclusione di una frase. Per esempio, la pagina di Wikipedia sullāItalia riporta: āLa capitale ĆØ Romaā, quella sulla Francia dice: āLa capitale ĆØ Parigiā, ecc. Si intuisce che un LLM sappia completare la frase āLa capitale ĆØ _ā con la parola āParigiā, a fronte della domanda āQual ĆØ la capitale della Francia?ā: il fine-tuning
gli ha insegnato la forma della risposta e lāattention, di cui parleremo dopo, a tenere conto della parola āFranciaā dal contesto della domanda.
Ma le capacitĆ dei LLM si sono presto dimostrate ben superiori alla loro intrinseca capacitĆ di completare una frase o di comporre intere storie a partire da un breve spunto iniziale.
Il Reinforcement Learning utilizza un premio da assegnare al sistema quando la mossa che sceglie ĆØ utile a raggiungere lāobiettivo. Nel caso di ChatGPT lāobiettivo ĆØ di soddisfare le richieste dellāinterlocutore, e il premio si basa sul confronto tra piĆ¹ risposte possibili. OpenAI, lāazienda che produce Chat-GPT, ha raccolto tantissime risposte alternative, ricavate da dialoghi con āallenatoriā umani che interagivano con la chatbot da allenare e davano un punteggio alle migliori. Il LLM di base (GPT-3.5) ĆØ stato messo a punto (fine-tuned) in modo da generare la risposta migliore coerentemente rispetto a questi esempi di risposte. OpenAI offre dettagli sul processo di sviluppo e sul ruolo dei revisori, secondo le consuete pratiche dellāazienda, in un blog1.
ChatGPT ĆØ diventato popolare perchĆ© OpenAI ha messo a disposizione un demo online per dialogare con la chatbot nella propria lingua, anzichĆ© doverlo programmare come gli altri LLM. Milioni di persone lo hanno voluto mettere alla prova e i commenti si sono divisi tra gli entusiasti e i detrattori. I primi erano stupiti e orgogliosi di vedere una piccola creatura alzarsi in piedi e compiere i primi passi, considerandolo un momento cruciale del suo sviluppo. Gli altri si sono sforzati di farla cadere con uno sgambetto o di farla cadere dalla bicicletta, che non aveva mai provato. Cercare domande sbagliate a cui ChatGPT dĆ risposte sbagliate ĆØ diventato uno sport diffuso, anzichĆ© cercare le domande giuste a cui questo strumento puĆ² dare la risposta giusta. Per farsi unāopinione scientificamente valida, non bastano singoli esempi scelti appositamente, ma occorre innanzitutto capire la tecnologia e i suoi limiti per saperla sfruttare al meglio. Anche coi motori di ricerca, ci siamo rapidamente adattati ai loro limiti: sapendo che si basano sul confronto tra parole chiave della ricerca e parole presenti nei testi, abbiamo imparato a scegliere le parole giuste e a cambiarle quando non ottenevamo i risultati che ci aspettavamo.
ChatGPT ĆØ solo uno dei tanti modi di usare i LLM. La ricerca sta facendo rapidissimi progressi in questo settore e nuovi modelli vengono sviluppati in continuazione. Non dobbiamo quindi pensare che ChatGPT sia il meglio che la tecnologia possa offrire, ma solo un passo di uno sviluppo che continuerĆ a stupirci. Vediamo quindi quali sono i costituenti di queste nuove tecnologie, le loro qualitĆ (il Bello), i loro limiti (il Brutto) e i potenziali rischi (il Cattivo).
2. I Large Language Model
I LLM costituiscono il secondo dei tre inaspettati breakthrough scientifici del Deep Learning applicato al Natural Language Processing, avvenuti nel breve periodo di dieci anni.
Il primo breakthrough fu lāinvenzione di un metodo per rappresentare il senso delle parole (Collobert, et al., 2011) con tecniche di apprendimento non supervisionato (self-supervised): ossia bastava fornire a una rete neurale un elevato numero di frasi, perchĆ© imparasse a cogliere somiglianze di significato tra le parole che le componevano. Ogni parola viene rappresentata da un word-embedding, un vettore di centinaia di numeri, ciascuno che in qualche modo coglie una particolare sfumatura di significato. Parole con significato simile si trovano vicine tra loro in questo spazio, ad esempio Francia, Italia e Germania sono vicine2, facendo supporre che possano essere accomunate da qualcosa che noi chiameremmo la categoria nazione, Microsoft, Google e Apple saranno altrettanto vicine, legate forse dal concetto di azienda digitale. Categorie e concetti emergono naturalmente, come parole presenti in un certo intorno dello spazio degli embedding, anche piĆ¹ articolati e numerosi dei concetti che si possono ritrovare in dizionari o ontologie curate a mano. Vi sono perĆ² termini ambigui, come āappleā, il cui significato dipende dal contesto.
Su questo interviene il secondo breakthrough, con lāintroduzione di un meccanismo di attenzione, descritto nellāarticolo seminale āAttention is All You Needā (Vasvani, et al., 2017). Con lāattention si riescono a cogliere legami e relazioni tra le parole in un contesto e costruire i cosiddetti Transformer, ossia modelli che trasformano una sequenza di input in una sequenza di output, conservando le relazioni tra le parole. PiĆ¹ in generale, si tratta di reti neurali utilizzate per elaborare sequenze di dati (quindi frasi, voce, fenomeni con andamenti temporali, ecc.) che vengono perĆ² elaborati in parallelo, non sequenzialmente, per sfruttare lāaccelerazione delle GPU, e che utilizzano lāattention, per tener conto della rilevanza reciproca tra gli elementi della sequenza: per esempio nella traduzione automatica, il testo originale viene trasformato nella sua traduzione in unāaltra lingua, tenendo conto del senso e della corrispondenza con le parole nellāoriginale.
La tecnica dei Transformer applicata alla traduzione automatica ĆØ stata uno dei piĆ¹ clamorosi successi del Deep Learning, che ha portato a surclassare in pochi mesi per qualitĆ ed efficienza i precedenti sistemi di traduzione automatica che avevano richiesto anni di sviluppo e messa a punto.
I Transformer hanno poi sbaragliato tutte le altre tecniche usate in precedenza nel campo del NLP in ogni altro compito: traduzione, classificazione, riassunto, risposte a domande, analisi di opinioni, inferenza linguistica, ecc. Basta scorrere la classifica dei sistemi a confronto su SuperGlue3, una raccolta di benchmark di analisi linguistica, per notare non solo che i migliori fanno tutti uso di Transformer, ma che molti giĆ superano in accuratezza le capacitĆ umane
GPT-4, il successore di GPT-3.5, ĆØ stato in grado di superare diversi testi di accesso scolastici e universitari
I Transformer possono essere adattati a nuovi compiti in modo relativamente semplice con la tecnica del fine-tuning. Si parte da un modello pre-allenato su unāampia raccolta di testi e gli si fornisce una raccolta relativamente piccola di esempi del nuovo compito da svolgere: il modello si adatta rapidamente a svolgerlo. Ć un progresso notevole perchĆ© accelera lo sviluppo di nuove potenti applicazioni, sfruttando lāenorme conoscenza linguistica contenuta in un unico Transformer generico, e specializzandolo verso un nuovo compito.
3. Il Bello
I Transformer fanno parte della Generative AI, sistemi di Intelligenza Artificiale capaci di generare risposte in modo creativo, producendo risultati che sorprendono per la loro qualitĆ che sembrerebbe tipica della mente umana: testi, immagini, musica e video possono venire generati a partire da frasi che le descrivono. Ad esempio, un testo puĆ² essere tradotto a partire dallāoriginale in un’altra lingua; una figura ottenuta da una descrizione della sua composizione; una musica dal testo di una canzone.
La tecnologia dei Transformer ĆØ applicabile a modalitĆ diverse, dalla voce ai testi, dalle immagini ai video. Per questo in futuro verranno sempre piĆ¹ sviluppati modelli multimodali, in grado di interagire accettando input sensoriali di tipi diversi e producendo loro combinazioni, rendendo sempre piĆ¹ naturale lāinterazione con loro.
I LLM mostrano risultati impressionanti per una serie di attivitĆ di elaborazione di testi come la risposta alle domande (QA), la generazione di codice (o altri linguaggi formali/assistenza editoriale) e la generazione di storie (fittizie).
Dai primi modelli nel 2018 ne sono apparse decine di varianti, da quelle per testo a quelli per immagini, da quelli monolingue a quelli multilingue, da quelli monomodali a quelli multimodali (testo e immagini) come GPT-4.
I LLM esibiscono capacitĆ che sorprendono gli stessi ricercatori, al punto che sono diventati oggetti di studio per capire quali siano le loro capacitĆ : un settore di studio chiamato BERTology. Tale studio si esegue stimolando i modelli con delle sonde (probe), per verificare se sanno svolgere compiti che richiedono capacitĆ per le quali non sono stati allenati.
I LLM sembrano mostrare capacitĆ emergenti (Wei & al., 2022), ossia che appaiono solo quando si accresce notevolmente la loro dimensione, in termini sia di dati di apprendimento che di numero di parametri di cui si compongono; capacitĆ che non manifestano i modelli di analoga architettura ma di dimensioni piĆ¹ piccole. Ad esempio, modelli di dimensioni elevate cominciano a esibire capacitĆ di ragionamento di tipo Chain of Thought, come nella figura accanto, in cui il modello risolve un problema che richiede un ragionamento matematico, seguendo la traccia indicata nella prima domanda/risposta sulle palle da tennis. Questa sorprendente potenzialitĆ dĆ ulteriore stimolo a una corsa verso la costruzione di modelli sempre piĆ¹ grandi.
4. Il BRUTTO
I LLM costruiscono risposte a partire dalle conoscenze linguistiche che hanno accumulato nei loro parametri, non estraggono la risposta da fonti esterne. PerciĆ² sono utilizzabili per compiti in cui questo modo di operare sia efficace, quali:
– Traduzione automatica
– Riassunto di un testo
– Sintesi di una raccolta di testi
– Comporre bozze (di articoli, mail, ecc.)
– Trasformare sequenze di un tipo in un altro (testo in immagine, voce in
testo, ecc.)
Per questi compiti possono essere di valido aiuto, mentre, se si cerca di usarli per ottenere informazioni su fatti di cui hanno avuto poco sentore, possono cadere in allucinazioni (hallucinations), introducendo nella risposta elementi plausibili ma non proprio corretti.
Questo problema puĆ² essere affrontato con tecniche che guidano un modello a produrre frasi che contengono informazioni precise e corrette ricavate da fonti sicure, ad esempio con la tecnica del prompting, adottata nei sistemi di data-to-text44 .
ChatGPT ĆØ stato allenato a non prendere posizioni su argomenti controversi, e se la cava relativamente bene se interrogato su questioni su cui esiste unāopinione prevalente. Ad esempio, se gli si chiede se i vaccini possono causare autismo, risponde che la scienza ĆØ unanime nel negare una correlazione e riporta che gli studi che ne sostenevano lāesistenza sono stati smentiti.
Questo ĆØ stato confermato da esperimenti5 su vari benchmark, dove ChatGPT risponde correttamente a domande triviali, su fatti che ricorrono frequentemente su Internet. Invece la comprensione del testo necessaria per rispondere a una domanda complessa, magari costituite da un singolo esempio di testo, ĆØ ancora insufficiente.
Dāaltra parte, questo significa che ChatGPT ĆØ influenzato dalle opinioni prevalenti o piĆ¹ diffuse, e quindi non va usato per farsi opinioni o suffragare opinioni preconcette. Occorre sempre esercitare il proprio spirito critico e considerare le sue risposte per quello che sono, una estrapolazione dai testi su cui il sistema ĆØ stato allenato. Su molti argomenti non esiste una veritĆ univoca e non si puĆ² certo pensare di trovarla tramite ChatGPT. Una delle stesse fonti principali su cui ChatGPT ĆØ allenato ĆØ Wikipedia: ma le informazioni riportate su certi temi nella stessa Wikipedia sono il risultato di litigi tra i curatori che cercano di imporre il proprio punto di vista.
Magari in futuro verranno prodotti chatbot che incarnano modi di pensare diversi, come avviene per le testate giornalistiche, e gli utenti potranno scegliere a quale di questi aderire per formarsi le proprie opinioni. Questo perĆ² richiederebbe che la capacitĆ di costruire LLM diventasse piĆ¹ accessibile, come diremo piĆ¹ avanti.
I LLM non hanno inoltre capacitĆ astratte quali quella di conteggiare, di fare calcoli, di effettuare ragionamenti logici o di pianificare in piĆ¹ passi. Ad esempio,
non sempre sanno calcolare quanto ĆØ lunga una parola o disegnare unāimmagine con esattamente 5 dita delle mani o una bocca sorridente con il numero giusto di denti.
Alcuni studi hanno verificato che gli attuali LLM da una parte esibiscono davvero competenze linguistiche formali (come la conoscenza lessicale e grammaticale,
illustrate nella figura 6), ma dallāaltra sono privi di competenze funzionali (richieste per svolgere calcoli matematici o ragionamento logico) (Mahowald, et al., 2023).
CiĆ² non dovrebbe stupire perchĆ© essi non sono stati allenati per eseguire ragionamenti astratti, ma solo per prevedere la prossima parola.
ChatGPT per esempio ĆØ stato allenato a gestire dialoghi, e quindi a tenere traccia dellāintera conversazione, rispondendo a tono, a volte scusandosi gentilmente se gli si segnala un errore e fornendo una nuova risposta per correggersi.
Questo fa sembrare che ChatGPT impari attraverso i dialoghi: in realtĆ ciĆ² di cui tiene conto ĆØ limitato alla conversazione in corso, ma alla prossima avrĆ dimenticato tutto. OpenAI sollecita gli utilizzatori a inviare loro feedback sulle risposte, al fine di migliorare il modello, ma ciĆ² avviene con lāaggiunta di nuovi esempi alla raccolta usata per il passo di Reinforcement Learning, che richiede settimane o mesi di allenamento e viene fatto quindi solo di tanto in tanto.
ChatGPT ha sollevato perplessitĆ su possibili effetti che il suo utilizzo potrebbe avere sulla scuola, con studenti che si fanno produrre risposte o saggi da ChatGPT esimendosi dallo studio; sul mondo dellāinformazione, sostituendo i giornalisti nella stesura di notizie. Altri sistemi come DALL-E 26 potrebbero avere impatti nel mondo creativo, sostituendo gli illustratori con strumenti che generano automaticamente immagini o produrre musica e video. Di recente ĆØ stata minacciata una causa contro7 lāazienda che produce StableDiffusion8, sostenendo che utilizza immagini di apprendimento ottenute in violazione del copyright.
PiĆ¹ grande ĆØ il LLM, piĆ¹ difficile diventa, sia per gli esseri umani che per tecniche algoritmiche, distinguere le notizie scritte da una macchina dagli articoli scritti da esseri umani. Su come comportarsi di fronte a tali situazioni le opinioni sono divergenti, se bandirne lāuso o controllarlo ad esempio con tecniche di watermarking.
5. Il CATTIVO
Ć ben noto che le applicazioni di AI generativa come le chatbot a volte possono essere difficili da controllare e si puĆ² finire in conversazioni in cui vomitano commenti razzisti o sessisti. OpenAI ha affrontato questo problema identificando contenuti tossici o semplicemente su temi politici controversi e cercando di intercettarli a priori.
Di fatto oggi gli unici che possono permettersi le enormi risorse di calcolo necessarie per allenare un LLM sono le grandi aziende tecnologiche. E il loro ulteriore sviluppo e diffusione richiede investimenti massicci, come dimostrano i $20 miliardi che Microsoft ha annunciato di voler investire in OpenAI e nellāintegrazione di ChatGPT con il suo motore di ricerca Bing. In questo settore stiamo per assistere a una guerra tra titani, per conquistare spazi in un nuovo settore applicativo: Microsoft con il sistema Prometheus9 contro Google con Bard10. Il passo da una chatbot a un sistema integrato di dialogo e ricerca ĆØ tuttāaltro che banale, come emerge dai primi passi falsi di entrambi i sistemi, e richiederĆ una riprogettazione sostanziale dellāarchitettura del sistema integrato.
SarĆ una battaglia cruciale con effetti dirompenti anche sullāecosistema digitale del web: infatti finora i motori di ricerca guadagnavano sulla pubblicitĆ che attraevano sfruttando lāinteresse per i contenuti che altri introducevano nei loro siti web. Questi ultimi venivano a loro volta remunerati con un aumento di traffico e una quota di entrate pubblicitarie. Ma con i chatbot che producono direttamente le risposte senza fare riferimento alle fonti, si spezza questo cordone ombelicale
che alimenta i produttori di contenuti. Gli effetti di questo cambiamento di paradigma sono del tutto imprevedibili.
Ci sono due strade possibili per rendere accessibile e democratizzare la tecnologia dei LLM: progetti dal basso che aggregano una comunitĆ di ricercatori nello sviluppo di modelli Open-Access, come BLOOM (Le Scao & al., 2022), o costruire e rendere disponibili ai ricercatori infrastrutture pubbliche dotate di risorse di calcolo adeguate, come chiedono a gran voce i ricercatori stessi sia in USA11 che in Europa12.
6. LE PAURE
Come ogni nuova tecnologia di largo impiego, anche i LLM suscitano reazioni contrastanti, dalle paure apocalittiche allāottimismo sfrenato.
Persino i tre ricercatori, considerati i padri del Deep Learning, hanno preso posizione, in una specie di tentativo di rimettere il genio nella bottiglia.
Yoshua Bengio ha sottoscritto una lettera aperta del Future of Life Institute (FOLI), in cui si chiede una moratoria di sei mesi nello sviluppo di ulteriori piĆ¹ potenti LLM, finchĆ© non vengano definite nuove norme sul loro utilizzo, anche se ĆØ scettico che la lettera abbia alcun effetto e consideri inadatte le norme di regolamentazione attualmente proposte.
Geoff Hinton ha invece interrotto la sua collaborazione con Google, a cui ha venduto dieci anni fa la sua startup DNNresearch, oltre che per ragioni di etĆ , anche per poter essere libero di esprimersi sui rischi dellāAI. Ha ribadito che Google si ĆØ finora comportato in modo responsabile nellāutilizzo dellāAI e continua a credere nellāimportanza degli studi in materia. Finora, come molti altri, riteneva che la possibilitĆ di costruire sistemi piĆ¹ intelligenti delle persone fosse lontano di 30 o 50 anni, mentre ora si ĆØ ricreduto.
I rischi che intravede sono nella diffusione su larga scala di fake-news, nellāeliminazione di posti di lavoro e infine nellāutilizzo per lo sviluppo di armi letali autonome.
Invece Yann LeCun non ha firmato la lettera del FoLI, sostenendo che la tecnologia ĆØ tuttora in evoluzione e come tutte le nuove tecnologie, forme di controllo e di sicurezza dovranno venire introdotte man mano che si sviluppa.
Le questioni segnalate da Hinton sono state ampiamente discusse negli anni scorsi e pericoli simili sono stati attribuiti anche ad altre tecnologie introdotte in passato. Ricordo, ad esempio, con quanta sufficienza e preoccupazione i media trattavano la nascente tecnologia di Internet una trentina di anni fa. Le preoccupazioni di oggi riguardano quindi piĆ¹ in generale lāuso responsabile delle tecnologie. Viene da chiedersi dunque cosa ci sia di particolare nei LLM che sta facendo concentrare lāattenzione di governi e istituzioni sulla loro regolamentazione.
Le fake news sono sempre esistite ed il problema principale ĆØ riconoscerle e bloccarne la diffusione, non tanto impedire che vengano prodotte. Lo spazio pubblico ĆØ giĆ saturo di frodi ed ĆØ difficile immaginare come lāAI possa renderlo molto peggiore. Il numero che conta non ĆØ quello di quante ne vengano prodotte, ma di quante raggiungono lāobiettivo di una diffusione virale, che non ĆØ facilmente prevedibile, tanto meno se queste vengono prodotte in automatico un tanto al kilo. Il timore delle deep fake (foto fittizie ad alto realismo) ignora il fatto che PhotoShop ĆØ in uso da decenni con lo stesso obiettivo, e gli stessi media tradizionali ne fanno abbondante uso.
Hinton afferma di essere rimasto spiazzato dalle capacitĆ raggiunte dai LLM in poco tempo. In effetti la sua ricerca ĆØ stata latente per trenta anni ed ĆØ esplosa negli ultimi dieci. Ma lo sviluppo esponenziale delle tecnologie informatiche non ĆØ una novitĆ : ne avvengono ogni 15 anni ed hanno effetti dirompenti e sostanzialmente positivi per tutti. PerchĆ© lāAI dovrebbe essere diversa e piĆ¹ pericolosa di altre? PerchĆ© lāAI produce sistemi piĆ¹ capaci degli umani? Ma in molti compiti i computer sono giĆ ampiamente superiori agli umani. PerchĆ© lāAI potrebbe riprodurre se stessa? Ma i compilatori non sono altro che programmi che scrivono programmi. PerchĆ© lāAI potrebbe ritorcersi contro gli umani? Ma questi sono scenari da fantascienza, nessun sistema potrebbe diventare autonomo se qualcuno non gli attribuisce questa capacitĆ : i LLM al massimo possono dire sciocchezze ma non possono fare male fisico. Stranamente le norme proposte di regolamentazione dellāAI, come lāEuropean AI Act, escludono invece dal loro ambito di applicazione i sistemi di utilizzo militare. Non ĆØ ridicolo che non si vogliano contrastare proprio le applicazioni piĆ¹ pericolose?
Alcuni criticano i LLM sostenendo che non sono in grado di capire. Ma lāinformatico Yoav Shahom, in un recente seminario su āUnderstanding understanding13ā afferma che tali critiche sono troppo vaghe, fintanto che non si definisce cosa significhi ācapireā. Finora, lāunico criterio pratico per stabilire se qualcuno, studente o computer, capisce, ĆØ di porgli delle domande su un tema di cui sappiamo le risposte. Ma su tutti i test di ācomprensioneā i LLM superano ormai abbondantemente il livello umano. Del resto, anche Richard Feynman diceva che ānessuno puĆ² dire di capire la fisica quantisticaā; eppure le sue equazioni funzionano. Quindi ciĆ² che conta ĆØ se lāAI funziona, non se capisce.
Dāaltro lato i LLM esibiscono capacitĆ emergenti, ossia che appaiono solo quando raggiungono grandi dimensioni e che i modelli piĆ¹ piccoli non hanno. Ć un fenomeno simile a quello che il Nobel Giorgio Parisi analizza nei sistemi complessi, il cui funzionamento ĆØ determinato dalla combinazione su larga scala di semplici leggi probabilistiche, come quello dei LLM di saper predire la prossina parola. La mente umana ha difficoltĆ a spiegare i fenomeni complessi perchĆ© siamo abituati a scomporre i fenomeni in piccole parti legate da relazioni di causa-effetto.
CiĆ² che stupisce ĆØ che si esprimano in maniera melodrammatica con affermazioni facilmente confutabili, anche esperti della materia come Gary Marcus e Noam Chomsky14. Soprattutto ĆØ insensato che a partire da un singolo esempio di errore nella risposta di un LLM, si arrivi a conclusioni generalizzate su quanto mai si possa realizzare tramite il Machine Learning.
I tentativi attuali di regolamentazione come lo European AI Act sono goffi e complicati: un testo di 107 pagine, che anzichĆ© limitarsi a stabilire dei principi o dei diritti, si avventura nellāimpostare un farraginoso processo di certificazione per garantire gli utenti contro i potenziali danni dei sistemi di IA. Ma siccome non si puĆ² effettuare tecnicamente la certificazione dei sistemi o degli sviluppatori, si limita a introdurre norme e verifiche sul processo di sviluppo di tali applicazioni. La certificazione dovrebbe essere svolta attraverso informazioni che le aziende stesse forniscono, visto che si vuole garantire la segretezza della proprietĆ industriale dei prodotti. Il processo di certificazione ĆØ estremamente laborioso e si stima costi intorno ai 300 mila ā¬, senza contare che dovrebbe essere replicato in ogni paese dellāUnione, e ciascun paese dovrebbe dotarsi di un apposito ente di certificazione, dotato di ārisorse adeguateā. La direttiva stessa riconosce questo problema di costi e per non penalizzare le piccole aziende, propone di introdurre delle āregulatory sandboxesā, un misterioso sistema per provare in un ambiente controllato il funzionamento delle applicazioni, da realizzare in ciascun paese. Ma le radici stesse della normativa sono in dubbio, in quanto definisce il settore dellāAI non in termini di ciĆ² di cui si occupa o di cosa faccia, ma delle tecniche che usa, come dire che lāoftalmologia viene definite dallāuso delle lenti e non come lo studio della visione.
Infine, lāEuropean AI Act15 esclude esplicitamente dal suo campo di intervento le applicazioni militari, che sono quelle che davvero producono morte e danni, mentre un LLM non puĆ² causare danni, al massimo puĆ² dire qualche sciocchezza.
Unāaltra paura ĆØ quella della perdita di posti di lavoro, che Goldman Sachs stima in 300 milioni di posti di lavoro solo in USA e in Europa. Altri allāopposto sostengono che altrettanti posti verranno rimpiazzati da nuovi lavori, relativi a nuovi prodotti o servizi basati su AI, come ĆØ successo con lāintroduzione di altre tecnologie in passato. Francamente non saprei fare delle stime, ma sono convinto che lāAI avrĆ un impatto significativo sul mondo del lavoro, in quanto si tratterĆ di una General Purpose Technology, che cambierĆ il modo di svolgere moltissime attivitĆ umane. Inoltre, i cambiamenti del digitale sono molto piĆ¹ rapidi di quelli delle tecnologie del passato; quindi, non ci sarĆ tempo sufficiente perchĆ© i lavoratori si riqualifichino per le nuove attivitĆ . CiĆ² a cui si assiste giĆ adesso ĆØ una divaricazione, tra lavori super-specializzati e ben remunerati, ma poco numerosi e un alto numero di lavori di scarso livello e poco pagati, al servizio delle macchine, della cosiddetta Gig-economy16. Questo produrrĆ un enorme divario
tra lavoratori e un corrispondente divario di potere economico e finanziario nelle mani delle poche grandi aziende digitali che controllano le piattaforme e i servizi digitali. Questi due divari saranno la causa di possibili disuguaglianze sociali su cui bisognerĆ intervenire per tempo.
Tranne la questione delle disuguaglianze e dellāimpatto sul lavoro, ritengo che le altre paure siano ingiustificate e siano relative a fenomeni che giĆ esistevano prima dellāirruzione sulla scena dei LLM.
Si tratta di questioni che riguardano lāimpatto economico e sociale dellāutilizzo di nuove tecnologie, di cui sono responsabili sia le aziende che gli utenti. Ad esempio le fake-news esistevano prima dei social media, e a diffonderle attraverso i social media sono gli utenti stessi, con la complicitĆ dei media che guadagnano sulla pubblicitĆ che cresce con lāinteresse che esse suscitano.
Gli informatici si devono sentire in dovere di segnalare alla societĆ lāimportanza e il ruolo che le nuove tecnologie possono avere e di chiedere di investire nella ricerca per sviluppare e migliorare tali tecnologie. Ma il piĆ¹ delle volte gli scienziati non sono in grado di prevedere gli effetti delle innovazioni, come diceva Rodney Brooks17, nel 2017, mentre oggi si esagera al contrario. Nessuno sapeva predire quali sarebbero stati gli effetti delle precedenti General Purpose Technologies, sviluppate dallāinformatica: nel 1980 il personal computer e nel 1995 Internet. Eppure, alcuni ne avevano segnalato gli effetti dirompenti18. Ma se analizziamo le preoccupazioni e le ipotesi di regolamentazione che venivano proposte allāepoca, ci rendiamo conto di quanto fossero fuori obiettivo. Esse avrebbero bloccato i benefici e non risolto il problema piĆ¹ serio della concentrazione di potere tecnologico a cui assistiamo oggi. In altre parole, bisogna padroneggiare la tecnologia, fare in modo che sia disponibile a tutti e non concentrata in poche mani, e seguirne le evoluzioni per adattare la societĆ ai cambiamenti che essa comporta.
7. CONCLUSIONI
ChatGPT ha portato allāattenzione del vasto pubblico la tecnologia dei LLM, che sono alla sua base, come di tante altre possibili applicazioni. La sua capacitĆ di interagire e di rispondere in linguaggio naturale in piĆ¹ lingue ha fatto insorgere curiositĆ e lasciare intendere che esibisca capacitĆ paragonabili allāintelligenza umana. Tramite esperimenti scientifici controllati, ĆØ stato possibile verificare che questo puĆ² succedere, ma solo in compiti di trattamento di testi molto specifici, mentre i LLM sono ben lontani dalle capacitĆ della cosiddetta Artificial General Intelligence (AGI).
Ma i progressi rapidi della tecnologia fanno immaginare ulteriori miglioramenti, sia incrementali, sia dovuti ad ulteriori eventuali breakthrough, visto il sempre maggior interesse che queste tecnologie stanno suscitando nei ricercatori e negli investitori. Limitarsi quindi alle critiche per gli attuali limiti della tecnologia non
tiene conto che ChatGPT non sarĆ lāultimo dei modelli e se si guardasse alla velocitĆ dei progressi recenti, potremmo presto stupirci per nuovi risultati in arrivo.
Occorre perĆ² evitare che il controllo della tecnologia rimanga appannaggio di poche grandi imprese che possono permettersi le enormi risorse necessarie per costruire i modelli piĆ¹ sofisticati e che questo consenta loro di aumentare il loro dominio sullāeconomia digitale.
In un caso o nellāaltro, lāevoluzione tecnologica dei modelli di AI porterĆ a cambiamenti dirompenti nel modo di sviluppare applicazioni, nella concentrazione di potere tecnologico e nella disparitĆ tra i detentori della tecnologia e gli altri, e infine nel mondo delle professioni.
BIBLIOGRAFIA
Collobert, R., J. Weston, L. Bottou, M. Karlen, K. Kavukcuoglu, & P. Kuksa. (2011).
Natural Language Processing (Almost) from Scratch. JMLR. Tratto da https://www.jmlr.org/papers/volume12/collobert11a/collobert11a.pdfĀ
Vasvani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., . . .
Polosukhin, I.
(2017). Attention is all you need. Neurips 2017. Curran.
Mahowald, K., Ivanova, A. A., Blank, I. A., Kanwisher, N., Tenenbaum, J. B., &
Fedorenko, E. (2023, January 23). Dissociating language and thought in large language models: a cognitive perspective. Tratto da ArXiv: https://arxiv.org/abs/2301.06627Ā
Le Scao, T., & al., e. (2022). BLOOM: A 176B-Parameter Open-Access
Multilingual Language Model. Tratto da ArXiv: https://arxiv.org/pdf/2211.05100Ā
Wei, J., & al., e. (2022, 12). Emergent Abilities of Large Language Models. Tratto
da ArXiv: https://arxiv.org/pdf/2206.07682Ā
https://openai.com/blog/how-should-ai-systems-behave/ Ā ā©ļø
https://projector.tensorflow.org (provare inserendo France nella Search) Ā ā©ļø
https://super.gluebenchmark.com/leaderboard Ā ā©ļø
https://www.amazon.science/blog/automatically-generating-text-from-structured-data Ā ā©ļø
https://www.geeksforgeeks.org/open-ai-gpt-3/ Ā ā©ļø
https://openai.com/dall-e-2/ Ā ā©ļø
https://www.theverge.com/2023/1/17/23558516/ai-art-copyright-stable-diffusion-getty-images-lawsuit Ā ā©ļø
https://stability.ai/blog/stable-diffusion-public-release Ā ā©ļø
https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/ Ā ā©ļø
https://blog.google/technology/ai/bard-google-ai-search-updates/ Ā ā©ļø
https://www.ai.gov/wp-content/uploads/2023/01/NAIRR-TF-Final-Report-2023.pdf Ā ā©ļø
https://claire-ai.org/vision/ Ā ā©ļø
https://claire-ai.org/vision/ Ā ā©ļø
https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html Ā ā©ļø
https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=celex%3A52021PC0206 Ā ā©ļø
https://en.wikipedia.org/wiki/Gig_economy Ā Ā ā©ļø
https://rodneybrooks.com/the-seven-deadly-sins-of-predicting-the-future-of-ai/ Ā ā©ļø
http://www.interlex.it/attualit/letterap.htm Ā ā©ļø
Giuseppe Attardi ĆØ stato professore ordinario di Informatica presso lāUniversitĆ di Pisa. Ha anche lavorato presso lāAI Lab del MIT, il Sony Paris Research Laboratory, lāICSI a Berkeley e lo Yahoo Research Barcelona. Ha sviluppato Omega, una logica descrittiva; CMM, il Garbage Collector utilizzato in Java e DeSR, un parser multilingue con reti neurali. Ha partecipato allo sviluppo di Arianna, il primo motore di ricerca italiano e ha introdotto la tecnica della categorizzazione per contesto delle pagine web. Ć fondatore o socio di alcune startup, in Italia e in Spagna. Ha contribuito alla realizzazione delle reti in fibra ottica dellāUniversitĆ di Pisa e del GARR e a promuovere lāaccesso a Internet in Italia. Ha guidato lo sviluppo della piattaforma cloud GARR. Ha contribuito alla stesura della strategia italiana sullāIntelligenza Artificiale e alla nascita del primo Dottorato di Ricerca nazionale in Intelligenza Artificiale.Email: attardi@gmail.come Design. Fondatore e presidente del centro METID (1996-2011), della SIe-L (2003-2007), del consorzio Poliedra (2002-2017), delegato del Rettore per lāe-learning e lāinnovazione didattica. Ć stato tra i primi in Italia a sperimentare la didattica a distanza; nel 2000 ha coordinato il primo corso di laurea interamente online. Ha pubblicato oltre 250 lavori, diretto o collaborato a numerosi progetti nazionali ed europei, svolgendo ricerche nei seguenti settori: analisi a molti criteri, sistemi di aiuto alla decisione, modelli per la valutazione dāimpatto ambientale, metodi di ottimizzazione, smart city e smart mobility, simulazione e serious games, formazione multimediale.Attualmente ĆØ presidente del Comitato UNICEF di Milano.