Ascolta
|
Joseph Schumpeter affermava che la crescita e la diffusione dell’innovazione sono abilitate dai brevetti, nello stesso modo in cui “le automobili viaggiano più velocemente di quanto farebbero altrimenti, perché sono dotate di freni”. Intendeva con questo dire che le limitazioni creano un ambiente sicuro dove è più facile per tutti collaborare e crescere.
Ma se invece di un’auto, avessimo un disco volante, come sarebbero fatti i freni di di cui avremmo bisogno? Proveremmo a frenare usando tutto ciò che sembra un pedale? O ignoreremmo il problema fino al muro?
Nell’era della creatività artificiale, i sistemi informativi di tutto il mondo ancora ignorano gli sviluppi tecnologici straordinariamente veloci rappresentati da app come ChatGPT e MidJourney, accanto a numerose altre.
Alcuni legislatori lavorano duramente per colmare questa distanza – l’Unione Europea punta a introdurre “la prima legge completa sull’AI al mondo” entro la fine del 2023 – ma le aziende che sfruttano l’AI si trovano di fronte a incertezze, zone grigie e imprevisti che ostacolano l’enorme potenziale di questa tecnologia.
Di che si tratta
Novembre 2022, il mese in cui il chatbot ChatGPT viene lanciato al grande pubblico, rappresenta il punto in cui l’evoluzione delle tecnologie di Machine Learning e Big Data degli ultimi 15 anni può dare un messaggio al mondo: le macchine sembrano diventate intelligenti. La vecchia massima “i computer fanno solo quello che diciamo loro di fare” diventa opaca e fievole; certamente ChatGPT è frutto di un meticoloso lavoro di ingegneria e di messa a punto, ma le risposte alle domande degli esseri umani che scrivono nella sua semplice interfaccia sono strabilianti, argute, piene di sfumature, e apparentemente, faticheremmo a trovare un termine più appropriato, creative.
Parallelamente MidJourney, assieme a progetti parimenti ambiziosi come DALL-E e Stable Diffusion, esce dall’ambito accademico della computer vision ed entra nella storia dei media per la sua capacità di creare immagini in cui la fantasia è difficilmente distinguibile dalla realtà (si vedano la serie di “foto” di celebrità in abbigliamento e pose insolite).
Chi crea che cosa
Con i modelli testuali come ChatGPT e quelli di generazione immagine, collettivamente chiamati “AI generative”, il concetto di creazione si fa sfumato: la macchina segue indicazioni in linguaggio naturale (“prompt”) da un essere umano, ma la composizione e la cura del dettaglio sono spesso a un livello che finora solo professionisti potevano raggiungere.
Non è tutto frutto degli algoritmi, però: solo negli ultimi anni ingenti investimenti in infrastrutture ed ingegneri hanno permesso a OpenAI, Google, e altri operatori di utilizzare una porzione enorme di dati raccolti da internet, ed è sulla base di questi dati che i modelli si addestrano per generare le proprie risposte. Ad esempio, perché MidJourney possa generare l’immagine fedele di un gatto, è stata precedentemente raccolta un’enorme quantità di immagini di gatti.
La relazione tra AI e proprietà intellettuale diventa chiaramente un tema prioritario, sia per gli utenti che per i costruttori di tali tecnologie: per questi ultimi, le querele continuano ad arrivare da parte di autori e detentori di diritti le cui opere – asseriscono – sono state utilizzate senza permesso per la creazione dei modelli, mentre i primi soffrono una condizione di incertezza dovuta alla mancanza di chiarezza su quali opere create con supporto AI possano essere tutelate dal diritto e quali no. Inoltre, gli utenti stessi, utilizzando output di AI generativa, corrono il rischio di essere querelati da presunti creatori originali che rivendicano i propri diritti.
Perché è una sfida per le aziende
Non si tratta di un problema per i soli addetti ai lavori, o per avvocati e uffici brevetti: l’incertezza ha impatto su diversi processi.
All’interno del processo di design le AI generative possono entrare nella creazione di modelli e prototipi di prodotto come sorgente di ispirazione, o addirittura come tratto caratteristico (“codesigned by AI”), ma in entrambi i casi si presenta il rischio che tra i suggerimenti del modello vi siano parti di collezioni esistenti o tecniche brevettate.
Le AI generative come strumento di marketing e advertising consentono di espandere le proposizioni di valore basate su user-generated content, ad esempio permettendo sul proprio sito la creazione di avatar, stampe o accessori guidata da AI. Ancora più che nel caso di professionisti, gli utenti sono a rischio di ricevere dai modelli o addirittura suggerire all’algoritmo design potenzialmente registrati, con scarse possibilità di controlli automatici previ. Le AI generative permettono anche di creare creatività ipercustomizzate sulla base delle caratteristiche dei clienti e visitatori ma, al di là dei rischi di reputazione derivanti da testi e immagini non appropriate, occorre considerare il rischio di vedere i propri contenuti querelati, o anche solo oscurati, per presunto infrangimento copyright.
Anche per quanto riguarda lo sviluppo di software, nonostante i maggiori provider di copilot (assistenti alla creazione di codice) stiano rafforzando i controlli, è ancora possibile che l’AI generi spezzoni protetti da copyright. Questo affligge principalmente le case di sviluppo software, ma il codice è ormai ubiquo e parte dell’offerta di diverse industrie, dall’automotive, all’accessoristica, oltre alle smartphone app e alle applicazioni web di qualsiasi brand.
Una filiera per l’intelligenza
La complessità dei modelli di AI generativa è tale per cui non è possibile “scoperchiarne” uno e assistere passo dopo passo al processo di generazione di un’immagine, un codice, un testo o qualsiasi altro output a partire dalla richiesta dell’utente. Tuttavia, è fondamentale comprenderne il funzionamento di massima, in modo da identificare i possibili passaggi critici da cui possono insorgere i problemi legali che vogliamo evitare o minimizzare.
Il concetto di Generative-AI Supply Chain, introdotto da un gruppo accademico interdisciplinare della Cornell University, analizza le fasi che conducono all’output, di qualsiasi tipo esso sia, del modello. L’obiettivo è quello di identificare dove intervenire e porre controlli sulla filiera che va dal dato grezzo al prodotto generato dalle AI.
Come materie prime, all’inizio della catena troviamo i lavori creativi: si tratta di tutti i prodotti della creatività umana usati per “allenare” il modello. A seconda del tipo di AI, cambierà il medium di riferimento: libri e pagine web per un generatore di testi come ChatGPT, arte visiva per un’app come MidJourney, software per un generatore di codice come i copilot di Microsoft e Github, e così via.
Per essere veramente utilizzati, i lavori creativi devono essere trasformati in dati, ovvero in asset digitali di formato compatibile con il modello a cui verranno forniti. I dati sono poi aggregati in dataset, ovvero collezioni strutturate che saranno la base per l’allenamento del modello.
A questo punto entra in gioco il modello vero e proprio: una sofisticatissima architettura software che viene costruita regolando un immenso numero di parametri (letteralmente miliardi) sulla base del dataset. Tale regolazione è del tutto automatica: il modello è progettato per scandire tutta la collezione di dati, costruire regole su di essa e, in qualche modo, adattarsi a imitare i dati dentro contenuti.
Il modello può quindi attraversare una fase di fine-tuning, in cui la sua performance viene testata e migliorata o adattata ad un uso specifico (possiamo pensare, ad esempio, a un modello generativo specializzato nella creazione di disegni per abiti).
Per essere messo a disposizione dell’utente, al modello così creato bisogna sovrapporre un’interfaccia utente che lo renda fruibile: ad esempio, un’app o un sito web.
A questo punto il modello può essere utilizzato per la generazione di nuovi output creativi; questa è tipicamente l’unica parte della filiera visibile all’utente finale.
Infine, raccogliendo il feedback di utilizzo, gli sviluppatori del modello possono contribuire al suo continuo miglioramento sotto vari aspetti, tra cui la performance e la compliance normativa.
Secondo i ricercatori della Cornell University, è importante comprendere che il copyright è da monitorare in tutte queste fasi, e pertanto il controllo della filiera deve essere sistematico.
Inoltre, è chiaro come la legislazione non abbia ancora preso posizione sulle responsabilità legali di chi crea il modello, di chi lo addestra, di chi lo distribuisce e di chi lo usa. Gli ultimi trent’anni hanno fornito diversi modelli di liability a legislatori e giudici, da Napster a Google, da Photoshop a Social Media come Facebook e YouTube; ma nessuno è strettamente applicabile a una tecnologia che, in potenza, può replicare tutte le tecnologie precedenti e molto altro.
Le raccomandazioni più solide al momento sono quindi quelle più basilari:
- Non cedere alle tentazioni: evitare di utilizzare o dispiegare modelli verosimilmente addestrati per la riproduzione di stili e brand protetti da copyright. Nessuno conosce le intenzioni iniziali di Shein quando ha creato il suo modello AI di tracciamento nuovi trend, ma l’azienda cinese ora si trova a fronteggiare una monumentale querela per aver copiato in automatico centinaia di design di moda.
- Trasparenza: nonostante la dimensione dei dati coinvolti e la complessità dei modelli non consentano sistematicità o accuratezza assolute, è importante mantenere traccia di come i lavori di base siano acquisiti e trasformati dagli algoritmi. Questo implica non solo classificare e archiviare dati in modo corretto, ma possibilmente utilizzare modelli Open Source dove possibile.
- Buona fede: mitigare i rischi di responsabilità dolosa attraverso disclaimer agli utenti, controlli a campione effettuati da esseri umani, blocchi automatici basati su similarità con lavori protetti, meccanismi di rimozione puntuale di dati di addestramento e generati.
DALL-E, MidJourney e altre app sono in grado di riconoscere richieste di riprodurre opere protette e censurano il loro output di conseguenza, mitigando il rischio di violazioni.
Si noti che le raccomandazioni elencate sopra non garantiscono protezione totale contro incidenti di copyright – in particolare, è arduo mettere in piedi meccanismi di controllo automatici che blocchino sistematicamente tutti i contenuti problematici.
Al tempo stesso, si tratta di politiche che mitigano anche altri rischi correlati all’uso delle AI generative: parliamo in particolare del rischio di violazione di privacy e del rischio derivante da contenuti offensivi, inaccurati e affetti da bias. In entrambe queste tematiche, sia il controllo della filiera che la reattività del sistema di individuare e rimuovere tempestivamente contenuti illeciti o problematici sono abilità fondamentali e, nel caso della protezione dei dati personali, spesso anche obbligatorie dal punto di vista normativo.
La storia che ci attende
È almeno dalla diffusione di internet, se non prima, che non assistiamo a una tale discrepanza tra il nostro contesto attuale e ciò che è disciplinato dalla legge e, se la storia recente ci dice qualcosa, ci vorranno anni prima di trovare l’equilibrio tra leggi draconiane – ma ultimamente inefficaci e aggirate dal mercato – e giurisprudenze costruite su tutto ciò che andrà storto.
Come nel percorso legislativo degli ultimi trent’anni, è possibile che assisteremo a dialettiche simili a quella di Napster e Spotify, dove le prime restrittive leggi cederanno il passo a marketplace strutturati in cui sia gli autori che i fornitori di intelligenza artificiale avranno la capacità di creare e monetizzare. Con un twist significativo: i confini tra autori e intelligenze artificiali saranno sempre più sfumati, e non è impensabile che un giorno il concetto stesso di copyright e quello stesso di creatività vadano ripensati alla radice.
Prima di allora, la sfida è quella di non trincerarsi dietro alle rendite – anche di proprietà intellettuale – e di avventurarsi in questo nuovo mondo senza infatuazioni, ma senza indugio. Vi sono già esempi. Per dare ai propri clienti la libertà di sperimentare, Microsoft fornisce scudo legale agli utilizzatori del suo copilot per violazioni del copyright sul codice generato attraverso di esso. Shutterstock già da un anno ha scommesso sulle immagini generate attraverso DALL-E facendo leva sul suo vasto database di foto professionali, ma attraverso un fondo apposito condivide i proventi con gli autori che hanno fornito i lavori creativi di addestramento.
In conclusione
Il territorio è incerto, i pericoli probabili, la destinazione finale sconosciuta, ma la carovana è già in viaggio con la promessa di cambio radicale nella produttività, e persino nel concetto stesso di lavoro e creatività. I pochi elementi delineati sopra sono paragonabili più ad una cartina con bussola che a un navigatore satellitare, ma sono gli strumenti di tutti, e crediamo possano portarci lontano a bordo dei nostri dischi volanti.