Era il 2013 quando Spike Jonze faceva innamorare Joaquin Phoenix, nel personaggio di Theodore, del proprio sistema operativo. “Her”, “Lei” nella versione italiana, è un film che ci ha posto di fronte alla possibilità di andare oltre i nostri confini razionali, di entrare in un rapporto empatico con …. con che cosa? Come può un software riuscire a farci fidare di esso, a concederci ad esso, a farci innamorare di esso? Forse i modi sono tanti, ma il momento è facile da individuare: quando “esso” si trasforma in lui o lei. Mi fido di lui, credo a lei. Ovvero quando è superata la soglia della verosimiglianza, quando il nostro sistema cognitivo non percepisce più la differenza tra vero e falso, tra il verosimile e spalanca le porte verso l’empatia.
Ma non è sufficiente una replica fedele, l’inganno dei sensi, per superare quella soglia. E’ necessario che siano replicate fedelmente anche tutte quelle condizioni che danno significato ad essere presente nel mondo virtuale. Il contesto, ad esempio: se non ripropongo il mutare delle condizioni termiche e del vento in un gioco di volo simulato, non saranno sufficienti grafica e suono al top per farmi credere di essere li.
Tale esercizio non è più così complesso quando replichiamo scenari urbani o naturali, strumenti, oggetti, veicoli poiché la computergrafica e la sintesi sonora ci offrono ormai livelli qualitativi eccezionali, basti pensare al cinema di animazione ed al mondo dei videogames.
Come rendere credibile un dialogo tra le repliche digitali di persone
L’iperrealismo grafico e l’alta fedeltà sonora non sono sufficienti; è necessario che l’atteggiamento corporeo e le espressioni facciali siano convincenti e caratterizzate, così come la capacità di comprendere il senso delle frasi e generare risposte coerenti ed il labiale corrisponda alla parola detta, in tutte le lingue. E sto tralasciando aspetti percettivi correlati alle sensazioni termiche, olfattive e, più in profondo, chimiche. Chiedere “come stai?” ad una persona cara incontrata per caso, non provoca le medesime condizioni psicofisiche della stessa domanda rivolta ad una persona coinvolta in un incidente stradale a cui stiamo prestando soccorso. Queste poche e non esaustive considerazioni dovrebbero far comprendere quanto è complesso replicare la natura del dialogo umano…. ma ci stiamo rapidamente arrivando e l’intelligenza artificiale è una delle chiavi.
I digital twins cinematografici permettono ai registi di sostituire attori reali con il loro doppio digitale, contando su budget di qualche centinaio di migliaia di dollari e su un copione già scritto, non certo un’improvvisazione. A questa, però, ci pensano i cosiddetti “motori conversazionali” dotati di Intelligenza artificiale (AI), utilizzabili tramite comandi testuali (i Chatbot che compaiono ormai in moti siti web) o vocali (presenti ormai in tutti i sistemi operativi per desktop e mobile, quali Siri, Alexa, Cortana e l’Assistant di Google).
Cosa manca? Un’interfaccia naturale, ovvero l’immagine di una persona che reciti il dialogo scritto e parlato sottolineando le emozioni, gli umori fino a sostituire interi significati con un solo gesto. Per poi arrivare a sostituire magari l’intero dialogo grazie al Linguaggio dei Segni.
Dalle prime sperimentazioni di solo qualche anno fa, lo stato dell’arte è già estremamente interessante. Basti pensare che a partire dal 2018 in Cina ed in Sud Corea i digital twins di alcuni conduttori televisivi reali hanno iniziato a condurre i telegiornali nazionali con una sensazione di presenza davvero convincente, grazie a tecniche di replicazione basate su riprese cinematografiche in green-back degli originali.
Ma oltre all’enterteinment si stanno affacciando soluzioni per #avatar che acquisiscono ruoli di accoglienza, facilitazione informativa, accompagnamento terapeutico, docenza e, non ultimo, l’advertising sul punto vendita.
Gli avatar conversazionali
Si apre l’era degli avatar conversazionali altrimenti detti Embodied Conversational AI.
Le aziende nel panorama internazionale in grado di offrire un servizio efficace e completo propongono soluzioni ospitabili su totem o fruibili tramite browser web fino ai dispositivi mobili. Così è per la multinazionale neozelandese Soul Machine, realizzatrice di alcuni avatar iperrealistici tra cui Ruth, usata da Nestlé per insegnare a fare biscotti perfetti e degli avatar usati sperimentalmente degli store 7-Eleven per dare informazioni sulle offerte in corso e le modalità di pagamento. Oppure le sperimentazioni in Realtà mista del progetto Mesh di Microsoft, che permette di dialogare in più lingue con il nostro doppio (o quello di chiunque altro) a patto di indossare un paio di (costosi) Hololens. In campo medicale è da segnalare la ricerca condotta dal californiano USC Institute for Creative Technologies (ICT), che col progetto “Sim Sensei” dimostra il futuro dell’uso degli avatar conversazionali in campo medico terapeutico. Con uno stile molto cartoon le multinazionali Rapport e Pandorabots hanno creato “Talking Santa”, che permette di scrivere l’agognata letterina a Babbo Natale semplicemente dialogando con lui. Dal Canada la Quantum Capture ha sviluppato “CTRL Human”, la loro offerta di avatar in 3D general purpose che ha iniziato ad applicare come concierge alberghieri o assistenti nel punto informativo di un negozio, potendo pubblicare pop-up con offerte speciali o i risultati delle ricerche attivate vocalmente dal cliente. Soluzioni analoghe sono state sviluppate da due aziende italiane, Quest-It e No Real Interactive, con diversi avatar general purpose realizzati in computergrafica 3D, dall’alto impatto realistico e dotati di motori conversazionali molto efficaci. No Real Interactive, tra l’altro, ha realizzato l’avatar conversazionale 3D di Leonardo da Vinci a grandezza naturale, che ben si presta a far conoscere la vita e le opere del genio toscano in box olografici, totem, pc e dispositivi mobili collocati nei musei o, perché no, nei desktop aziendali o nei punti vendita
Quali vantaggi si possono immaginare una volta superata la soglia della verosimiglianza?
Di certo la possibilità di moltiplicare le possibilità di contatto con l’utente ed il tempo di attenzione a costi minimi, oltre a poter aggiornare costantemente le informazioni temporanee inserendole nella piattaforma di apprendimento dell’avatar in modo testuale, lasciando al software tutto quanto concerne riguardo la sintesi vocale, la scelta dell’atteggiamento e delle espressioni facciali dell’avatar oltre ai collegamenti con le eventuali pagine web e pop-up che compariranno alla bisogna.
Si apre l’era degli avatar conversazionali, quindi, e con loro enormi potenzialità di engagement sia nel mondo fisico che quello digitale fino al punto, forse, di far innamorare un essere umano.
Link:
D.Borra, E se a stupirti fosse il tuo avatar? https://www.youtube.com/watch?v=SdXtpYDY4d8
Cybro Leonardo: https://youtu.be/TC_Q2WOF42Q