Le emozioni dei computer: a che punto siamo e dove andiamo?

Sono molti gli scrittori, i registi e i “fantasticatori” in genere che hanno immaginato macchine capaci di provare emozioni, eppure, nessuno è mai riuscito ad oggi a crearne uno. Ci riusciremo? Io credo di sì, e nei prossimi paragrafi proverò a dare un’idea di quanto bene possano simulare le emozioni i computer di oggi.

Ogni tanto torna sui giornali la notizia di esperimenti riguardanti i cosiddetti “social robots” (qualcuno magari ricorderà i più appariscenti “sex robots“, in grado di simulare in tutto e per tutto una figura umana. E’ indubbio che queste ricerche restano lontane dalla nostra realtà, sia per motivi economici sia perché banalmente nessun nostro amico possiede un “social robot”. In realtà, lo studio e la modellizzazione delle emozioni da un punto di vista computazionale è ben più vasto e i campi applicativi molteplici, nonché di diretta influenza sulla nostra vita di tutti i giorni.

L’affective computing

Con “affective computing” s’intende l’ambito dell’informatica contemporanea che tratta le emozioni umane. Nata ormai 23 anni fa’ da uno storico della ricercatrice statunitense Rosalind Picard, è oggi una disciplina in pieno sviluppo. Per capirne l’interesse scientifico, si può riflettere sul fatto che la psicologia è ormai quasi unanime nel ritenere le emozioni essenziali alla vita umana e indispensabili alla nostra sopravvivenza. Per dirla con Minsky, grande e discusso studioso del secolo passato, potete immaginare una macchina intelligente ma senza emozioni?
Nell’ottica di un sistema di Artificial Intelligence completo – in gergo un’Intelligenza Artificiale Forte – non si può prescindere dal modellare quei processi storicamente ritenuti “irrazionali” dell’intelligenza umana. E, d’altra parte, l’affective computing di per sé ha aperto la strada a tecnologie totalmente nuove. Prima di parlare del futuro dell’affective computing, però, vorrei spendere due parole sui metodi alla base di questa disciplina; per il momento, se volete un’anticipazione “ghiotta” su come potrebbero essere utilizzate queste tecnologie nella vita quotidiana – e scommetto che lo saranno – potete pensare alle reactions di Facebook, alle playlist di Spotify o alle recommendations di Netflix, ma anche agli algoritmi di “smile detection” presenti in ogni fotocamera digitale o alla produzione di pubblicità emotiva.

Teorie delle Emozioni

Le emozioni sono state studiate fin dalle epoche più antiche. In particolare, furono poste in contrapposizione con le facoltà umane ritenute razionali da filosofi come Platone, Zenone e gli altri stoici, ma anche da Descartes in epoca più recente.
Fu Charles Darwin il primo a proporre una prospettiva scientifica per lo studio delle emozioni. Lo fece nel volume “The Expression of Emotions in Man and Animals” (1872), in cui, confrontando uomini di culture differenti e animali, suggeriva che le espressioni facciali scaturite da una determinata emozione siano universali e cross-culturali, nonché che abbiano una funzione di sopravvivenza per l’individuo e di comunicazione per un gruppo sociale – ad esempio la sensazione di disgusto per un frutto velenoso difende l’individuo, la sua espressione facciale permette di comunicare al gruppo il pericolo.
Più tardi, nel 1962, Schachter e Singer proposero la teoria dei due fattori, secondo la quale le emozioni si genererebbero dalla combinazione di due componenti:
1. una componente di “arousal”, malamente traducibile con “eccitazione”, originata da una evento scatenante
2. una parola descrittiva della circostanza corrente in cui si svolge l’evento, che gli viene attribuita dal soggetto in modo più o meno consapevole
Lo stesso evento in situazioni differenti, quindi, potrebbe generare emozioni differenti in chi lo sperimenta a causa di una diversa descrizione.
Oggi, gli approcci più in voga per affrontare il tema delle emozioni sono 3 e tutti hanno ereditato in qualche misura alcuni principi della teoria dei due fattori: quello evoluzionistico che prende le mosse dai lavori pioneristici di Darwin volte a sottolineare l’universalità delle emozioni, quello detto dell'”appraisal” nato per interpretare le variazioni interindividuali e interculturali, e quello costruzionista, emerso in tempi recenti come alternativa ai due precedenti. Il più delle volte, in realtà, le teorie si compenetrano tra di loro, rendendo questi approcci non perfettamente complementari.
In generale, gli “evoluzionisti” pensano che un’emozione scaturisca da stimoli provenienti dell’ambiente e rappresentabili come problemi per la sopravvivenza dell’individuo e che la reazione emotiva produca un comportamento volto ad aumentare le opportunità di riproduzione degli individui. Ad esempio, un animale di fronte a un predatore proverà “paura” o “terrore” e quindi scapperà, mentre di fronte a un possibile partner proverà “gioia” o “amore” e sarà spinto ad accoppiarsi. Più che di comportamenti, gli psicologi evoluzionisti parlano di “tendenze all’azione” e di “programmi affettivi”, i quali sono svariati e possono essere adattati alle situazioni e alle esperienze specifiche – per esempio se incontrassi il mio prof. di Dati e Algoritmi 2 probabilmente vorrei scappare, ma nonostante sia terrorizzato lo saluterò, conscio che non mi farà del male. Tra le teorie evoluzionistiche, le più influenti, quanto meno nell’ambito dell’affective computing, sono state sicuramente le teorie delle basic emotions sviluppate tra gli altri da Paul Elkman (1992). Secondo queste teorie, si può individuare un ristretto numero di emozioni che sono scatenate automaticamente da alcuni stimoli dell’ambiente e che hanno espressioni universali. Ekman, in particolare, individuò 6 emozioni base (paura, disgusto, rabbia, sorpresa, tristezza e gioia) con cui nemmeno gli altri evoluzionisti sono concordi. Le basic emotions di Ekman hanno portato anche alla definizione del sistema FACS, un insieme di espressioni facciali associate alle emozioni base e ritenute anch’esse sostanzialmente invarianti alla cultura e alla specie. Varie ricerche hanno anche mostrato delle correlazioni tra stati emotivi e segnali fisiologici o del Sistema Nervoso Autonomo. In realtà, i metodi di ricerca utilizzati e la difficoltà nell’indagare gli stati emotivi rendono dubbi tali risultati.
I teorici dell’appraisal, invece, identificano il processo di valutazione dell’ambiente circostante come fattore scatenante l’emozione emotiva. Tale processo, chiamato appunto appraisal, non determina solo la positività della situazione al fine del nostro benessere, ma un numero di caratteristiche come la novità, la coerenza con norme esterne e la rilevanza agli scopi personali. L’appraisal è un processo inconscio e inintenzionale, molto rapido e con valori continui, al contrario delle basic emotions discrete. Sulla base di esperimenti che testimoniano vissuti emotivi differenti scatenati da un medesimo evento, i sostenitori di questo approccio ritengono che specifici pattern di appraisal corrispondano a determinate emozioni, spiegando così perché lo stesso evento viene vissuto in modo diverso da persone differenti. Nonostante gli appraisals siano stati pensati come caratteristiche innate, oggi solo alcuni pattern sono considerati innati, e precisamente la novità, cioè il rilevamento di avvenuti cambiamenti nell’ambiente e quindi di elementi a cui occorre prestare attenzione, e la valenza, ovvero il grado di positività dell’ambiente. Questi due appraisals sono stati anche correlati a specifici segnali neurali e cardiovascolari. Alcuni teorici dell’appraisal, infatti, sostengono le cosiddette teorie componenziali, le quali individuano l’appraisal in un insieme di componenti, comprendenti lo stato fisiologico, il Sistema Nervoso Autonomo, le espressioni facciali e anche fattori esterni come le norme sociali. I teorici delle componenti hanno recentemente posto in evidenza come le basic emotions e le espressioni facciali non siano sempre correlate e hanno spiegato queste variazioni in base alle altre componenti dell’appraisal.
Secondo i costruzionisti, infine, le emozioni sarebbero frutto di un processo mentale associativo. In modo simile alla teoria dei due fattori, i costruzionisti pensano che le emozioni siano delle categorie apposte a posteriori dall’uomo tramite un’autoanalisi della propria esperienza. In altre parole, utilizzando elementi appresi da altri contesti della realtà, daremmo forma al concetto di emozione tramite un processo di categorizzazione. Le basic emotions non sarebbero perciò entità assolute, ma etichette poste come convenzione sociale per riferirsi ad un largo gruppo di stati emotivi. In questa prospettiva, si spiega perché le emozioni base si ritrovano spesso in culture differenti ma sotto forme leggermente diverse, così come si spiega l’esistenza in certe lingue di emozioni intraducibili in altre lingue. Varie ricerche hanno mostrato come i due fattori che meglio spiegano il livello di somiglianza percepita dalle persone tra termini differenti o tra espressioni facciali differenti siano la valenza e l’attivazione (qui “spiegare” è usato in senso statistico, non di causalità). La valenza, come già detto, indica la positività di un’emozione, mentre l’attivazione si riferisce all’arousal. Pertanto, un’emozione come la rabbia sarà associata a negatività – ovvero bassa valenza – e a moderata attivazione – quindi alto arousal; la calma sarà invece leggermente positiva e poco attiva. I costruzionisti ritengono che queste due dimensioni siano innate e invarianti alla cultura, nonostante le reazioni corporee e comportamentali possano variare in base al contesto e all’esperienza dell’individuo.

Aspetti computazionali: rappresentazione e misurazione

Immaginate ora un informatico che vuole usare le teorie psicologiche delle emozioni per creare un modello computazionale della sfera emotiva umana. Siccome si trova di fronte ad un sistema incredibilmente complesso di cui conosce molto poco, decide di usare un approccio black-box: sceglie una tipologia di modello che gli sembra più adatto e prova ad adattarlo al suo caso. Raccoglie un dataset contenente stimoli emotivi e le corrispondenti emozioni provate dai tester, poi allena l’algoritmo prescelto, che sarà una rete neurale, una SVM, una Random Forest o altro. Per evitare che il modello impari “troppo bene” i dati durante l’allenamento e che non sia poi in grado di predire correttamente le emozioni in situazioni leggermente diverse, il nostro informatico prende tutte le precauzioni del caso, suddivide i dati e ne tiene una parte esclusivamente per il testing finale, eventualmente usando metodi di cross-validazione o addirittura leave-one-out. Cosa otterrà? Un sistema in grado di simulare le emozioni “di quel dataset”, e la bontà del modello dipenderà da quanto il dataset sarà effettivamente aderente alla realtà.
In effetti, tutte le teorie presentate nel paragrafo precedente, soffrono di un problema metodologico: è possibile misurare un’emozione? Fino a non molto tempo fa’, la gran parte degli studi utilizzava metodi di indagine verbali – es. questionari -, che sono però entrati in crisi con il modello costruzionista, il quale ha evidenziato come il significato delle parole sia sostanzialmente soggettivo. Inoltre, molti hanno notato che gli esperimenti di laboratorio soffrono di una polarizzazione dei dati poiché avvengono in situazioni sociali forzate e perché le emozioni provate possono variare in base a condizioni ambientali, come la luminosità, la temperatura, l’umidità, l’ampiezza della sala, etc.
Per risolvere questi problemi sono state inventate numerose tecniche, di cui però nessuna è definitiva. Innanzitutto, l’avanzata del neuroimaging potrebbe offrire metodi sicuri per indagare le reazioni emotive senza intervenire direttamente sui processi dell’individuo, almeno in linea teorica. Nella realtà però si tratta di tecniche invadenti, che spesso devono essere svolte in laboratorio in condizioni di assoluta non quotidianità. Un altro metodo è stato suggerito dalla “embodied cognition” – letteralmente “cognizione incarnata” – e dallo studio dei movimenti gesturali. Anche questo approccio però soffre spesso di invasività dei sensori preposti a rilevare il movimento e di fondamenti teorici, perché nulla prova con certezza che la gestualità sia un metodo di indagine diretto e non invece filtrato da altri processi a noi ignoti. Infine, numerose tecniche di facial analysis, voice detection, e misurazioni fisiologiche di vario genere possono essere utilizzate, ricadendo però quasi sempre nelle problematiche già menzionate.
Un altro aspetto di difficile soluzione è la sollecitazione delle emozioni, che può essere realizzata tramite stimoli di cui si presuppone di conoscere la relativa emozione: immagini, storie, musiche, video, etc. Anche in questo caso, però, restano numerosi ostacoli riguardo alla realizzazione di queste collezioni di etichette emotive, proprio come li aveva il nostro informatico.
Un ultimo, si fa’ per dire, palese problema è il sistema rappresentazionale: come si rappresenta un’emozione con un computer? Quando gli ingegneri si trovano di fronte a problemi troppo complessi, amano semplificare e verificare solo successivamente che i calcoli risultino corretti. Così, per rappresentare le emozioni, gli ingegneri scelgono la teoria che più si addice a implementazioni computazionali, ed è presto detto: le basic emotions di Paul Ekman, un semplice vettore con n variabili, ciascuna associata a un’emozione, con valori booleani (0 o 1) o, al più, con valori reali. Un  metodo alternativo molto usato è lo spazio valence-arousal, che nasce dalle teorie costruzioniste, e corrisponde alla mappatura in due dimensioni dei fattori ritenuti innati e cross-culturali. Esistono poi un numero di altri sistemi più o meno utilizzati in applicazioni pratiche informatiche che si rifanno alle teorie descritte nel paragrafo precedente. Per il momento, ci interessa sottolineare che il modello rappresentazionale scelto porta con sè anche la relativa impostazione teorica.

Affective Computing: applicazioni

Ricapitolando: il nostro informatico ha dei sensori che sono in grado di misurare dei segnali provenienti dal corpo di un soggetto. Tali segnali possono essere immagini di espressioni facciali, di encefalogrammi o di risognanze magnetiche, ma anche segnali provenienti dall’attività cardiaca, dalla temperatura corporea, dai ritmi respiratori o dai movimenti degli arti e del corpo del soggetto. Tutti questi dati possono essere misurati tramite appositi sensori e correlati a determinate emozioni.
Forse può inquietare il fatto che una macchina possa essere in grado di capire le nostre emozioni, e in parte lo è. D’altra parte, queste applicazioni stanno trovando sempre più campi applicativi, per molti dei quali, sono sicuro sareste d’accordo. Ad esempio, questi sistemi vengono sviluppati per applicazioni di “cyberterapia“: persone con disturbi nella comunicazione emotiva, come l’autismo, possono essere aiutate durante l’interazione sociale grazie a strumenti appositi simili a smart glass; inoltre, in situazioni complesse può rendersi utile sfruttare tecnologie informatiche per effettuare delle sessioni di psicoterapia a distanza e il terapeuta può essere agevolato da questi sistemi.  Un altro campo potenzialmente interessante è quello della didattica: immaginate se un professore del liceo o di università potesse essere aiutato da un sistema di rilevamento delle emozioni. Quando vengono toccati temi eccessivamente noiosi e si verifica un calo di attenzione, il docente potrebbe correggere il tiro e tentare strade alternative.
Applicazioni di stampo più commerciali, invece, riguardano gli ambiti “pubblicitario” e del “design”, in cui la reazione emotiva dell’utente può essere determinante per il successo di un prodotto – specialmente nel cosiddetto kansei engineering giapponese, un approccio al design che tiene espressamente in conto le emozioni dei clienti. Un’ulteriore tecnologia molto usata è l’analisi dei testi provenienti da mass media e social network; in questo caso, ci si limita solitamente alla cosiddetta sentiment analysis, che consiste nel riconoscimento di un numero ristretto di stati emotivi differenziati in base alla loro positività, quindi alla valenza e non all’arousal.
Nel futuro, è probabile che algoritmi di emotion recognition vengano inseriti in molte delle piattaforme informatiche che utilizziamo quotidianamente. Facebook, ad esempio, consente agli utenti di esprimere la loro reazione tramite 6 differenti stati emotivi, di cui 3 corrispondono perfettamente alle storiche basic emotions di Paul Ekman. Spotify basa la gran parte delle proprie playlist sui mood e ha recentemente introdotto nuove playlist personalizzate create da algoritmi. Per quel che ne possiamo sapere, le prime vengono compilate da editor umani, ma la ricerca nell’ambito dei recommendation system è molta ed è piuttosto plausibile un futuro in cui saranno esclusivamente gli algoritmi a classificare l’emotività della musica e a creare le playlist degli utenti. In modo analogo, anche tutte le piattaforme che si basano sulla raccomandazione di contenuti ne potrebbero venire influenzate.

Etica

Si prospettano, dunque, una moltitudine di tecnologie basate sull’emotività degli utenti. Come la storia recente ci ha insegnato, non saremo solo noi abitanti del “vecchio” continente ad esserne investiti, ma sarà probabilmente un processo esteso a tutto il mondo. A mio avviso, è proprio questa la principale criticità che dovrà essere affrontata.
Innanzitutto, le criticità che affliggono la misurazione e lo stimolo di stati emotivi influiscono direttamente sugli algoritmi e sui dataset prodotti per allenarli, oltre che, ovviamente, sugli studi teorici su cui l’affective computing pone le proprie basi. Inoltre, la psicologia è oggi quasi unanimamente convinta che le emozioni provate dagli umani dipendano sia da fattori innati sia da fattori culturali. Ciò è estremamente rilevante nell’epoca della globalizzazione.
Le espressioni facciali collegate ad una medesima emozione possono essere molto varie a seconda della cultura. Anche l’emozione associata ad un particolare tipo di musica è in certi suoi aspetti dipendente dal contesto, e nello stesso modo molte altre forme di espressione emotiva. Non solo, le emozioni vissute ed espresse variano anche in base ai singoli individui. Al fine di sistemi informatici efficienti, sarebbe necessario fornire algoritmi di apprendimento automatici calibrati sulle singole persone con cui il sistema interagisce. Ad oggi, questo è spesso impraticabile nella gran parte delle possibili applicazioni, ad esempio nel caso di applicazioni pubblicitarie.

Tra le principali aziende oggi attive nell’affective computing, solo affectiva, una startup creata dalla “guru” dell’ambito Rosalind Picard, si è mostrata attenta a queste tematiche, ma senza prestare attenzione alle specificità individuali e micro-culturali dei modelli emotivi che sviluppa. Affectiva, infatti, fornisce ai propri clienti analisi emotive degli individui effettuate a partire da varie tipologie di segnali, come la voce e l’espressione facciale. Tali analisi vengono calcolate in base a modelli elaborati solo su base nazionale.
In merito, si è espresso anche l’Institute of Electrical and Electronics Engineers (IEEE) all’interno di un documento che intende fornire indicazioni per uno sviluppo etico delle tecnologie dell’informazione, chiamato “The IEEE Global Initiative on Ethics of Autonomous and Intelligent Systems“. Purtroppo, nonostante lo sforzo della IEEE, il documento risulta essere eccessivamente meticoloso e decisamente troppo astratto, descrivendo pratiche lontane dalla realtà e finendo per indicare approcci a cui è decisamente arduo attenersi, rischiando così di restare lettera morta. Inoltre, il documento non è per nulla vincolante e non ha alcun valore legale.
Il problema dell’affective computing non è solo il fatto che, come le altre le nuove tecnologie informatiche, avvantaggerà probabilmente i grandi colossi dell’informatica che già ora possiedono grandi quantità di dati. Ci troveremo invece di fronte ad una nuova dinamica, che consisterà anche nella globalizzazione culturale con cui l’Occidente si impone come centro alle altre culture periferiche; con l’affective computing, entro qualche decade, saranno le reazioni emotive stesse ad essere imposte. In realtà, pensando alle playlist di Spotify o alle interattività di Facebook, sta già succedendo. Se fino ad ora gli scambi culturali stimolavano la nascita di reazioni emotive differenti in contesti differenti, in futuro le piattaforme informatiche potrebbero suggerire o addirittura richiedere ai propri utenti una reazione prestabilita, provocando un’omogeneizzazione delle emozioni. Se il mondo informatico non prenderà i provvedimenti necessari, diventerà un processo di scala globale, dagli esiti completamente inediti.

Facebook Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here