La compressione audio in RSI svelata dall'ingegnere audio Richard Schiller

Scritto da Dora Murgu | 16 agosto 2022

Abbiamo caricato questo articolo sul nostro podcast Interprefied ed è ora disponibile nella tua directory di podcast preferita.

Ascolta e scarica il podcast qui sotto:

Disponibile per il download su:

La qualità del suono è qualcosa che ci accompagna per tutta la giornata. Dall'accendere la radio al mattino alla visione compulsiva di una nuova serie TV a tarda notte, un buon audio è qualcosa che spesso diamo per scontato. Sebbene sia solitamente abbastanza facile individuare un audio scadente, una buona qualità audio è in realtà una questione piuttosto complessa. Un buon esempio è una discussione decennale tra amanti del vinile e altri audiofili su quale formato offra una qualità audio superiore: CD o vinile.

Nell'interpretazione a distanza, la possibilità di ricevere e inviare audio di qualità è fondamentale. Per garantire che le informazioni vengano elaborate accuratamente e garantire un'esperienza audio piacevole, proteggendo al contempo l'udito delle persone.

Come piattaforma audio-first, lavoriamo costantemente su nuovi modi per influenzare il comportamento degli altoparlanti , oltre a implementare soluzioni audio innovative che garantiscano una qualità audio superiore. Un argomento spesso discusso: la compressione del suono può davvero contribuire a influenzare positivamente l'esperienza sonora, se applicata correttamente.

Ci siamo seduti con Richard Schiller, ingegnere audio e Senior Product Manager presso Interprefy per capire cos'è la compressione del suono, come viene utilizzata nell'RSI e cosa influenza la qualità del suono.

Ciao Richard, raccontaci un po' del tuo background e di cosa fai.

Ciao Dora, è un piacere parlare di nuovo con te. Il mio ruolo in Interprefy è Senior Product Manager. Mi occupo della direzione e dei dettagli del prodotto. Sono anche un tecnico del suono qualificato. In origine lavoravo nella più grande organizzazione radiofonica al mondo, la BBC World Service. Questo background ti rende ossessionato da chiarezza e coerenza.

La coerenza è stata la chiave per far funzionare la radio su larga scala, e la chiarezza è stata l'essenza stessa di ciò che abbiamo offerto. Ho lavorato anche nel settore della registrazione musicale e della televisione. Ho svolto la maggior parte dei lavori in quella professione, tra cui produttore, regista, presentatore e sceneggiatore.

Allora sei la persona giusta per rispondere alla domanda da un milione di dollari: cos'è la compressione?

Esistono due cose diverse e non correlate che vengono chiamate compressione nel suono: in origine esisteva la compressione dinamica, un circuito o, oggi, un algoritmo che controlla automaticamente il livello del suono. Questa viene utilizzata principalmente per ridurre la gamma dinamica, ovvero l'intervallo tra i suoni più deboli e quelli più forti. Poi è arrivata la riduzione del bitrate, un sistema per ridurre la quantità di dati audio da memorizzare o trasportare.

La compressione dinamica e la riduzione del bit rate possono essere utilizzate bene o male.

Quindi, sono buoni o cattivi?

Nessuna delle due. Come quasi ogni cosa, queste due tecniche possono essere usate bene o male. Se usate male, allora no, non sono buone, ma non c'è nulla in nessuna delle due forme di compressione che dica che siano intrinsecamente cattive.

La compressione dinamica è essenzialmente come avere un dispositivo che monitora il livello sonoro e abbassa la manopola del volume quando l'audio diventa troppo forte. Poi la alza di nuovo quando l'audio si abbassa. Aiuta le persone a sentire sia i passaggi ad alto volume che quelli a basso volume ugualmente bene. In sostanza, non è diverso da un essere umano che abbassa il controllo del volume – e sottolineo che la compressione dinamica consiste nel ridurre il volume, da cui il nome.

Da dove nasce quindi la preoccupazione per la compressione?

La compressione dinamica rende il suono più debole, il che è spesso indesiderato, quindi è seguita da un controllo del volume preimpostato per aumentarlo nuovamente. Poiché la compressione equalizza il livello del segnale, è possibile procedere in due modi. Può essere impostata su un livello più basso, ma più facile da ascoltare, oppure su un livello più alto, che catturi maggiormente l'attenzione. Se posso uscire dalla discussione per un momento e sottolineare un punto importante: se pensate che il suono sia troppo forte, abbassatelo. Assumete sempre il controllo del vostro livello di ascolto.

Non è solo il livello a essere sbagliato: anche le cosiddette costanti di tempo di un compressore sono importanti. Infine, c'è il rapporto. Questo è spesso impostato in modo troppo aggressivo e questa è la causa più comune per cui la compressione rende il parlato incomprensibile.

Una delle applicazioni più fastidiose è rappresentata dai circuiti di Controllo Automatico del Guadagno (AGC) mal progettati, sia nei vecchi dispositivi di consumo che negli algoritmi utilizzati da alcuni PC. AGC e noise gate sono spesso impostati come attivi di default nei laptop e in altri dispositivi. Quindi, la dinamica è onnipresente nelle nostre vite. Una compressione mal impostata può tagliare i suoni occlusive e sibilanti, rendendo difficile la comprensione del parlato. Questo si può percepire come una qualità sorda delle consonanti dure all'inizio delle parole, in particolare per la prima parola di una frase. Un altro segno di un AGC mal impostato si manifesta quando qualcuno pronuncia una parola a voce alta seguita da una a voce bassa e si sente la fine della parola a voce bassa ma si fa fatica a percepirne l'inizio.

Passiamo all'RSI. In che modo la qualità del suono nella musica differisce dalla qualità del suono nel parlato?

Ci sono molte cose in comune, ma in ogni caso bisogna fare attenzione a capire cosa sia il bene. Si prendono i numeri dalle registrazioni di musica classica realizzate in studi acusticamente trattati e li si applica al parlato. Per certi versi, il parlato è più facile di un'orchestra, per altri è più difficile.

Ad esempio, le alte frequenze non sono così importanti per il parlato come per alcuni strumenti. Si può affermare con ragione che per alcune percussioni la larghezza di banda è fondamentale, mentre per il parlato dovrebbe prevalere la fluidità. Ecco perché un tecnico del suono userà un microfono diverso per una persona rispetto a un rullante o a un piatto.

So che alcuni mi risponderanno che le frequenze tra 18 e 20 kHz sono vitali per il parlato, ma non è così. In generale, i microfoni migliori e più costosi che gli ingegneri del suono usano per il parlato non sono adatti a quelle frequenze perché semplicemente non ne hanno bisogno.

E non è solo un caso. Immagina di essere in una foresta e di ascoltare una persona a pochi metri di distanza, con la bocca rivolta direttamente verso il tuo orecchio (e sei abbastanza giovane da riuscire ancora a sentire a 20 kHz). Se girassi il viso in modo da poter vedere chi parla e lui si girasse di lato, non sentiresti più la componente a 20 kHz, o almeno la sentiresti molto ridotta. Queste frequenze molto alte non si conservano bene nel mondo naturale e quindi non sono importanti per noi, perché la vita sarebbe impossibile se lo fossero.

Raggiungere la chiarezza è un processo più sfumato di quanto la gente voglia rappresentare.

Quindi, ai fini dell'interpretazione simultanea, non è essenziale avere accesso a frequenze fino a 15.000 Hz?

La sfida qui è che potrei sembrare come se stessi dicendo che il secondo migliore è sufficiente, ma la verità è che ottenere chiarezza è più sfumato di quanto si voglia rappresentare. A parità di condizioni, una larghezza di banda di 15 kHz è migliore di 10 kHz per il parlato, che a sua volta è migliore di 6 kHz e così via.

Tuttavia, una risposta più piatta (fluida) fino a 10 kHz può essere migliore per la comprensione rispetto a una risposta discontinua fino a 15 kHz. Allo stesso modo, un parlato che non sia stato compresso dinamicamente in modo eccessivo con una larghezza di banda di 6 kHz può essere più facile da comprendere rispetto a una larghezza di banda di 15 kHz con una compressione pessima.

Tutto ciò significa che preservare la risposta in frequenza è importante, ovviamente, ma lo sono anche altri fattori, e nessuno di essi, da solo, renderà le cose perfette. Il problema specifico con la risposta è che salendo di scala, i rendimenti diminuiscono significativamente. Quindi, la nostra tendenza a ossessionarci sui registri più alti indica che si tratta di qualcosa che comprendiamo e possiamo descrivere facilmente, piuttosto che riflettere la sua reale posizione nella catena del valore.

Una larghezza di banda di 15 kHz o più deve essere parte di un programma completo che offra buone prestazioni, ma in senso letterale non è essenziale per una buona e facile comprensione né la garantisce.

Si sostiene che le piattaforme RSI applichino una compressione della gamma dinamica che causa un suono di scarsa qualità. È vero anche per Interprefy?

No. Non c'è bisogno di compressione della gamma dinamica in generale. Questo non significa che non la usiamo mai. Al momento abbiamo qualcosa in laboratorio che applica una compressione davvero interessante. È progettato per gli ascoltatori, siano essi pubblico, delegati o interpreti. Può essere attivato da chiunque lo desideri o disattivato, se non lo desidera. 

L'eccellenza deriva dall'applicazione della tecnologia nel posto giusto e nel modo giusto. Si tratta di mettere a punto, ricercare la perfezione in ogni fase e applicare piccole modifiche incrementali all'intero sistema.

Parliamo un attimo dei delegati, perché a tutti noi è capitato di trovarci di fronte a un oratore che parlava in modo pessimo.

Sì. Assolutamente Dora. E sono davvero determinato a eliminarlo. I veri problemi sono le pessime apparecchiature utilizzate da molti diffusori e la loro scarsa comprensione di ciò che devono fare per garantire la qualità del suono.

Come possiamo risolvere questo problema?

Come per quasi ogni cosa, la soluzione sta nell'affrontare molti fattori diversi. Abbiamo bisogno che gli oratori usino microfoni migliori, che siano più competenti sulle tecniche di microfonia e che prestino maggiore attenzione al rumore di fondo e all'eco. C'è molto da fare in questo senso, un'attività che abbiamo iniziato con la nostra campagna video di "relatori housekeeping" .

Anche in questo caso possiamo avvalerci della tecnologia. In futuro, potremo tornare su questo argomento e discutere di come la tecnologia possa aiutare le persone a migliorare la propria qualità e a compensare i problemi quando non ci riescono.

La grande differenza è tra una buona attrezzatura ben configurata e una attrezzatura scadente, mal configurata.

Quindi, se dovessimo confrontare il suono ricevuto tramite hardware, come una console fisica, e quello ricevuto tramite Interprefy, non ci sarebbe molta differenza, a patto che l'altoparlante utilizzi l'attrezzatura appropriata?

Sì, è proprio così, Dora. La grande differenza qui non è tra lavoro in sede e lavoro da remoto, ma tra apparecchiature migliori e ben configurate e apparecchiature scadenti e mal configurate. Non c'è alcuna differenza intrinseca in un sistema locale basato su hardware in termini di qualità audio. Molti partecipanti a riunioni ed eventi che utilizzano sistemi RSI dispongono di microfoni migliori rispetto ai loro equivalenti in sede. Alcuni preferiscono partecipare utilizzando dispositivi peggiori. Come ogni altra cosa nel mondo degli affari, anche questo deve essere gestito in modo appropriato.

Quindi, qual è la differenza tra RSI e una soluzione basata su hardware?

Ciò che l'RSI offre è la scelta. Scelta attraverso la flessibilità. Quando mia moglie è rimasta incinta, il suo datore di lavoro, un uomo, le ha semplicemente detto che non aveva più un lavoro. Per fortuna ora è illegale. Mi piace pensare che l'RSI significhi che gli interpreti che non vogliono o non possono viaggiare possano lavorare in modo più flessibile. Non mi piaceva il pessimo atteggiamento di mia moglie e, proprio come penso che i datori di lavoro dovrebbero fare tutto il possibile per consentire alle persone di lavorare, indipendentemente dalle loro condizioni o esigenze di stile di vita, penso che spetti anche a noi, i fornitori del sistema, integrare questa flessibilità.

Le soluzioni RSI sono flessibili anche per le organizzazioni. È possibile organizzare una conferenza o una riunione ovunque e impostare o modificare la configurazione all'istante. Di recente abbiamo aiutato un astronauta a parlare con il mondo mentre si trovava sulla Stazione Spaziale Internazionale. Insistere affinché un astronauta partecipasse di persona sarebbe stato ovviamente ridicolo.

Tornando alla compressione, cosa diresti a coloro che chiedono di eliminarla del tutto?

Eliminare la compressione, indipendentemente dalla sua forma, non è una soluzione miracolosa. Vorrei ribadirlo ancora una volta: non esiste una soluzione miracolosa. Parte della soluzione olistica consiste nell'eliminare l'uso improprio della compressione, sia quella dinamica che quella a basso bitrate. Ciò significa avere ingegneri del settore che conoscano la tecnologia e la conoscano nei dettagli.

Che dire dell'utilizzo di più funzioni di compressione una dopo l'altra? È automaticamente un errore?

Questa è nota come compressione a cascata. No, non è automaticamente negativa né per la compressione dinamica né per quella in bitrate.

La compressione a cascata presenta problemi specifici e quando si progettano soluzioni, bisogna impegnarsi a fondo. È ragionevole preoccuparsi della compressione a cascata, perché richiede un notevole impegno per farla funzionare, ma se si è competenti, è possibile realizzarla. E anche molto bene. Prendendo ad esempio la compressione dinamica, due delle più grandi innovazioni audio di sempre sono derivate dall'utilizzo della compressione dinamica a cascata.

Alcune persone sembrano essere particolarmente brave a valutare fattori come la compressione: dovresti usarli per aiutarti?

Esiste un solo modo per valutare l'audio, ed è quello che chiamiamo test alla cieca. Idealmente, test in doppio cieco. Chiunque vi dica di essere particolarmente bravo a percepire problemi audio, chiedete se ciò è avvenuto in un test alla cieca, ovvero in un programma in cui non si sa distinguere tra due elementi e dove il test è condotto da qualcuno estraneo alla valutazione. Tutti i test dovrebbero inoltre utilizzare una varietà di ascoltatori.

Molte persone, probabilmente la maggior parte, pensano di avere un udito eccezionale, ma solo una su venti ne è davvero convinta. È come se tutti pensassimo di essere ottimi guidatori.

Un buon suono si ottiene dedicando molta attenzione e lavorando in modo olistico.

Alcune persone sembrano avere opinioni molto discordanti sulla qualità del suono e su come ottenerla. Qual è la tua risposta?

Chi parla in termini binari, che usa "cose da fare" e "cose da non fare", si sbaglia, come ho imparato dall'esperienza. Non mi piace vedere la compressione o qualsiasi altro strumento audio farsi una cattiva reputazione, senza che ce l'abbia meritata. Non perché ne sia particolarmente appassionato o perché ne sia un sostenitore, ma perché un buon suono si ottiene con molta cura e lavorando in modo olistico. I veri perfezionisti non sono binari, usano l'intero kit di strumenti e non sono inclini a riduzioni semplicistiche.

Ogni elaborazione del suono può essere fatta male e bene. Se fatta bene, significa che la configurazione giusta viene utilizzata e applicata dove è utile. La compressione dinamica può essere pessima se applicata male, ma questo non significa che sia universalmente sbagliata. Applicata correttamente, è una risorsa incredibile.

Visualizza il post completo