View on GitHub

Game Sound

talking about videogames development and sound...

Edizione Gennaio 2018 (lezione integrativa)

Back to Home;

Per le slide e il materiale didattico fare riferimento alle precedenti edizioni!


La sospensione dell’incredulità

Quando parliamo di videogioco, parliamo di una tipologia relativamente recente di gioco. Oltre a condividere con il concetto più generale di gioco una serie di caratteristiche (insieme di regole, presenza di uno o più giocatori, obbiettivi e ostacoli, …) il videogioco si distingue per il mezzo con cui viene fruito: lo schermo. E’ inoltre dotato di una spiccata interattività tra il/i giocatore/i e il gioco stesso, e di una forte mutlimedialità (testo, immagini, video, suoni, rete, …).

Possiamo quindi inquadrare il videogioco come uno dei moderni media di intrattenimento.

Quando parliamo di un’opera di intrattenimento dobbiamo tenere in considerazione un fenomeno che si verifica tra opera, autore e fruitore. Ogni volta che si fruisce di un’opera d’intrattenimento si instaura fra autore e fruitore un tacito contratto, chiamato sospensione dell’incredulità. In cosa consiste questo contratto? Da parte sua l’autore si impegna a offrire un’opera capace di suscitare emozioni e di coinvolgere il fruitore. Dal canto suo il fruitore si lascia condurre dalla narrazione e accetta come momentaneamente realistico ( o verosimile?) quanto proposto dall’autore. Si lascia trasportare dalle emozioni suscitate dall’opera.

Si tratta di un equilibrio molto sottile ottenuto da un equilibrio tra le parti. La bontà di un’opera di intrattenimento si può misurare dal grado di coinvolgimento che è in grado di generare, e quindi dalla solidità di questo delicato equilibrio.

Esempi: a volte leggiamo un libro e i personaggi rimangono nella testa anche una volta finito il libro, come se si conoscessero. Avendo finito la lettura del libro si percepisce come una sorta di nostalgia per persone che sappiamo bene non essere reali. Un film ci può tenere attaccati allo schermo, ci fa sobbalzare (in vari modi). Una musica può farci perdere il contatto con quello che ci circonda e farci viaggiare in nostri mondi interiori.

La rottura del contratto

Cosa succede quando si rompe questo equilibrio? La magia finisce, siamo “buttati fuori”, come in un mix un cui c’è una sezione fuori posto o una stinatura che interrompe il flusso continuo della fruizione immersiva. Attenzione però, la caduta della sospensione dell’incredulità può essere usata anche a fini comici o come strumento narrativo (vedi House of Cards).

Come può avvenire questa frattura fra nararzione e fruizione? Come si realizza la rottura?

Sicuramente elementi che concorrono alla rottura sono una cattiva narrazione, l’utilizzo di stilemi e clichè ricorrenti e riconoscibili, la mancanza di profondiyà del messaggio trasmesso (ad esempio, i film di cui parla yotobi non sono brutti perchè tecnicamente scadenti - o almeno, non solo. Lo sono perchè molto spesso non hanno messaggio. E questo li rende brutti e grotteschi).

Se l’audio gioca un ruolo fondamentale nel creare e tenere saldo l’equilibrio autore-opera-fruitore, gioca un ruolo di primo piano anche nel farlo cadere. La componente emotiva di un’opera è spesso convogiata dal suono (musica e effetti). Quando si guarda un film horror, per non avere paura non si devono chiudere gli occhi, ma si deve spegnere l’audio. L’audio svolge anche un’attività narrativa ( pensiamo alle colonne sonore, ai soundscape, ai leitmotiv, ai temi, … ) che dà supporto alla narrazione generale dell’opera.

La ripetizione

In ambito audio, l’elemento principale che può far cadere la sospensione dell’incredulità ( al netto di difetti tecnici) è la ripetizione. Perchè la ripetizione ha questo effetto? Il nostro cervello è abituato a riconoscere patterns o eventi che si ripetono a breve distanza. Quindi la ripetizione di un evento sonoro è subito riconosciuta dal nostro sistema cognitivo.

La ripetizione nei media lineari

Nei media lineari, in cui la fruizione dell’opera ha un’unico percorso predeterminato con un inizio, uno svolgimento e una fine (esempi sono i film, le rappresentazioni teatrali, …)rimediare al problema della ripetizione è quasi banale. Prendiamo come esempio un film. Genstendo in maniera opportuna la colonna sonora ed effetti si possono eliminare le ripetizioni evitando l’uso ripetitivo dello stesso suono. A meno che la ripetizione serva alla storia (leitmotiv, tema, marca sonora). La ripetizione spesso è riconosciuta non solo se avviene all’interno del medeseimo film, ma anche se avviene in più film. Capita alle volte di riconoscere suoni di alcune librerie effetti in più film, fino ad arrivare a casi limite, come la presenza in moltissimi film del Willhelm Scream.

La ripetizione nei media non lineari

I media non lineari sono quei media che prevedono una fruizione attiva e reattiva (quindi interattiva). Ne sono esempi i videogiochi e le installazioni artistiche. In questi casi non c’è un’unico percorso di fruizione possibile. Anzi, potrebbero non esserci affatto percorsi predeterminati. In alcuni casi (soprattutto nei vifeogiochi) è l’azione del fruitore che determina lo svolgersi dell’opera. Quest’azione non è illimitatamente libera, ma viene comunque circoscritta in maniera più o meno stringente dall’autore (in GTA non posso entrare in una gelateria se quest’azione non è prevista dall’autore del gioco).

Gestione sonora degli eventi del gioco

Varietà

Innanzitutto, analizzando l’audio nei videogiochi ci rendiamo conto che non sempre la ripetizione è un male. La ripetizione DEVE essere presente in qualsiasi azione che esuli dal gameplay, come ad esempio le interazioni con l’interfaccia utente. Ma anche all’interno del gameplay la ripetizione può avere un ruolo narrativo e di guida al gioco, come ad esmepio la cosiddetta audio reward ovvero la segnalazione acustica di un’azione da ricercare o da evitare nel proseguo del gioco. Torniamo ora alla ripetizione come elemento di disturbo nella fruizione immersiva del videogioco. Chiamiamo le possibili condizioni che si possono verificare durante un gameplay eventi. Un evento può essere un qualsiasi click del mouse, il raggiungimento di un punteggio o livello, il superamento di un obiettivo, la scelta di una linea di dialogo tra un elenco di possibili, o, ancora, tutte le interazioni tra oggetti del gioco recepite dal motore di fisica del game engine. Sicuramente associare a ciascun evento un suono diverso limita la presenza di elementi ripetittivi. Ma basta? E, soprattutto, quanti eventi ci sono in un gioco?

Variazione

Prendiamo ad esempio di dover genstire un evento dato dalla collisione di un oggetto A con un oggetto B. Diamo per scontato che l’interazione A -> B sia uguale all’interazione B -> A. Allora abbiamo bisogno di un suono. Ma se si aggiungesse un altro oggetto C, allora i suoni necessari per rappresentare il sistema sono 3: A<->B, B<->C, A<->C. Difficilmente però avremo a che fare solo con tre elementi in un gioco. Pensiamo ad uno scenario più realistico, sebbene sempre semplificato. In una situazione in cui abbiamo una decina di oggetti che devono binariamente interagire tra loro, osserviamo che il numero di interazioni possibili, e quindi di suoni necessari, cresce con un andamento esponenziale. Si tratta di una legge combinatoria che identifica quanti gruppi di due elementi si riescono a creare avendone a disposizione, ad esempio 13. Il risultato supera i 90.

Gestione delle risorse

Quindi di fronte ad un esempio semplice di interazione tra pochi elementi, vediamo che già le dimensioni degli elementi che si devono trattare cresce. Quindi, per far fronte al problema della ripetizione ci si imbatte nel problema di dover gestire al meglio le risorse di memoria (sempre scarse!) del sistema. Infatti, se a questa semplice interazione se ne aggiungeranno altre nel gioco, andando quindi ad incrementare ulteriormente la memoria necessaria per allocare i file audio, è anche vero che se ogni volta che si ripresenta la stessa interazione mettiamo in riproduzione lo stesso campione, non abbiamo risolto nulla… è sempre ripetizione. Quindi il carico di memoria si appesantisce ulteriormente se cerchiamo di risolvere questo problema inserendo diversi campioni per ciascuna interazione, offrendo così varaiazione sulla varietà. Ma quanti campioni inserire per ottenere l’effetto desiderato, mantendo il carico sul sistema contenuto?

Soluzioni

La tendenza nell’industria è quella di incrementare sempre più il numero di assets sonori, e per ovviare all’inevitabile ripetizione che si verifica gestendo infinite posibili interazioni con un insieme finito di elementi, si attuano alcune soluzioni creative per creare variazioni in real time, sfruttando le risorse hardware e software della macchina. Ecco le principali soluzioni:

Dove?

Il game audio engine

Quindi, cosa deve offrire un moderno game audio engine per assecondare tutte le richieste di variazione in real time appena proposte?

Il suono come processo

I tentativi di eliminare le ripetizioni sono dettati dalla ricerca di realismo in ambito sonoro (non ci sono ripetizioni in natura). L’audio nel videogioco ha sempre svolto un ruolo importante, a volte spingendo allo sviluppo di nuove tecnologie, poi usate anche in ambito non videoludico.

Consideriamo ora brevemente la dimensione grafica del videogioco. Se il realismo sonoro è ricercato attraverso l’uso di samples, nella grafica questa ricerca si concretizza nell’uso della tridimensionalità. Quindi, si fa ampio uso di forme geometriche, le mesh, ciascuna composta da poligoni generati da miriadi di facce triangolari, su cui viene agganciata una texture, ovvero un’immagine che viene illuminata grazie a calcoli vettoriali svolti in tempo reale su ciascuno dei tre vettori che definisce cciascuno dei ertici di ciascuna faccia di ogni poligono. Tutto questo carico di lavoro, compiuto in tempo reale, è appannaggio della GPU che rielabora dati relativi alla fisica e genera un’immagine 2D che però è capace di produrre l’illusione della terza dimensione (qui entra di nuovo in scena il contratto audiovisivo). Teniamo a mente questo dato: 60 volte (almeno) ogni secondo la GPU costruisce le geometrie, applica le texture e le luci in base a dati ricebuti dal motore fisico, in tempo reale. Bene, ora torniamo al suono.

Cosa significa realismo nel dominio del suono? C’è un parallelo con il realismo della grafica? A ben pensarci, il suono nei videogiochi per come l’abbiamo analizzato finora, si basa sull’unità base che è il campione. Un campione è un’immagine cristallizata nel tempo di una situazione temporanea e dianmica che è la perturbazione nell’aria in un dato momento. E’simile ad una fotografia, è fisso e immutabile. Passibile come la fotografia di modifiche successive, ma siamo ben lontani dalla creazione dinamica in tempo reale della grafica (prima di fruirla, la grafica di un videogioco NON ESISTE).

Pensiamo ad una statua. Si può descrivere una statua con una fotografia? Il suono è un fenomeno tridimensionale, ma il rischio è che il campione non sia l’unità ottimale per ottenere un effetto audio 3D realistico.

Il suono sintetico nel videogioco

Agli albori e per lungo tempo, in accordo con la tecnologia disponibile, l’audio nei videogiochi è stato prevalentemente, se non addirittura esclusivamente, sintetico. Il campione è un’introduzione relativamente recente, sdoganato dalla diffusione del CD, CD-ROM e simili. A pensarci, il suono sintetico è un suono generato in tempo reale, passibile di modifiche ‘on the fly’ da parte di un utente che modifica alcuni parametri. Parrebbe essere un buon candidato per adempiere a quella richiesta di realismo che pervade la grafica. Da un punto di vista musicale la sintesi è una pratica diffusa e consolidata. Pensiamo al virtual analog, l’analisi dei circuiti di sintetizzatori analogici e la modellizzazione del loro funionamento per replicarbne il suono e il timbro in digitale. O ancora pensiamo al physical modelling in cui strumenti acustici vengono modellizzati e riprodotti in digitale con risultati sorprendenti. Quindi, nell’ambito videoludico, come si pone il suono sintetico?

Il passaggio da fare è da un sistema data driven e event based a un sistema di audio procedurale.

Audio procedurale

“Procedural audio is non-linear, often synthetic sound, created in real time according to a set of programmatic rules and live input” Lo stream di dati continuo generato dall’interazione dell’utente viene acquisito, e usato come un set di parametri per controllare in tempo reale una serie di algoritmi che sintetizzano il suono. Il riverbero digitale è un esempio di audio procedurale.

I vanataggi dell’audio procedurale

Il sound designer

Ma allora fanno tutto le macchine? E la figura del sound designer? Il sound designer non viene soppiantato da questo sistema, ma anzi, guadagna uno strumento in più da inserire nel proprio bagaglio di conoscenze. Inoltre, il sound designer può decidere di specializzarsi nella modellazione di alcuni tipi di suono particolari, proprio come nella grafica ci si specializza nella modellazione di liquidi, superfici, nella resa delle luci, nei materiali, ecc…

Realistico o verosimile?

In realtà, i due approcci di cui abbiamo parlato non sono mutualmente esclusivi, ma raggiungono il massimo della forza espressiva se usati in conguinzione, ciascuno a coprire i punti deboli dell’altro.

E’ anche vero, infatti, che non sempre il realismo è rchiesto in un videogioco (ad esempio pac man); inoltre, non tutti i suoni sono adatti ad essere realizzati in maniera realistica. La verità è che spesso più che il realismo quello che si ricerca è la verosimiglianza. E proprio come avviene in un mix, quando componenti differenti riescono a trovare una giusta collocazione e incastro per creare un insieme organico, così suoni realistici e suoni verosimili, suoni sintetici e campioni possono coesistere e collaborare per creare un insieme superiore alla somma delle parti.