Area di apprendimento | Interprefy

Compressione audio in RSI svelata dall'ingegnere del suono Richard Schiller

Scritto da Dora Murgu | 16 agosto 2022

Abbiamo caricato questo articolo sul nostro podcast Interprefied ed è ora disponibile nella directory podcast che preferisci.

Ascolta e scarica il podcast qui sotto:

 

 

Disponibile per il download su:

 

La qualità del suono è qualcosa che ci accompagna tutto il giorno. Dal mettere la radio al mattino al binge‑watching di quella nuova serie TV fino a tardi la notte, l’audio di buona qualità è qualcosa che spesso diamo per scontato. Whilst it's solitamente abbastanza facile individuare l’audio di scarsa qualità, la buona qualità audio è in realtà una questione piuttosto complessa. Un buon esempio è una discussione decennale tra amanti del vinile e altri audiofili su quale formato offra una qualità sonora superiore: CD o vinile.

Nell'interpretariato a distanza, la capacità di ricevere e inviare audio di qualità è fondamentale. Per garantire che le informazioni siano elaborate con precisione e assicurare un'esperienza audio piacevole proteggendo l'udito delle persone.

Una piattaforma audio-first, siamo costantemente al lavoro su nuovi modi per influenzare il comportamento dei relatori, oltre a implementare soluzioni audio innovative che garantiscono una qualità audio superiore. Un argomento spesso discusso, la compressione del suono può davvero aiutare a migliorare positivamente l'esperienza sonora - se applicata correttamente.

Ci siamo seduti con Richard Schiller, Ingegnere Audio e Senior Product Manager presso Interprefy per capire cos'è la compressione del suono, come viene usata in RSI e cosa influenza la qualità del suono.

Ciao Richard, raccontaci un po' del tuo background e di cosa ti occupi.

Ciao Dora, è un piacere parlare di nuovo con te. Il mio ruolo presso Interprefy è Senior Product Manager. Mi occupo della direzione e dei dettagli del prodotto. Sono anche un ingegnere del suono qualificato. In origine ho lavorato nella più grande organizzazione radiofonica di trasmissione vocale al mondo, la BBC World Service. Questa esperienza ti porta a ossessionarti per la chiarezza e la coerenza.

La coerenza era la chiave per far funzionare la radio su larga scala, e la chiarezza era l'essenza stessa di ciò che abbiamo consegnato. Ho anche lavorato nella registrazione musicale e in televisione. Ho svolto la maggior parte dei ruoli in quella professione, tra cui produttore, regista, presentatore e sceneggiatore.

Allora sei’ la persona giusta per rispondere alla domanda da un milione di dollari: cos’è la compressione?

Ci sono due cose diverse e non correlate che vengono chiamate compressione nel suono: originariamente c'era la compressione dinamica, che è un circuito o oggi un algoritmo che controlla automaticamente il livello del suono. Questo è principalmente usato per ridurre la gamma dinamica — l'intervallo tra i suoni più soffici e i più forti. Poi è arrivata la riduzione del bitrate, un sistema per ridurre la quantità di dati audio che devono essere memorizzati o trasportati.

La compressione dinamica e la riduzione del bitrate possono essere usate bene, o male.

Allora, sono buoni o cattivi?

Né. Come quasi tutto, queste due tecniche possono essere usate bene o male. Se usate male, allora no, non sono buone, ma non c'è nulla in nessuna delle due forme di compressione che dica che siano intrinsecamente cattive.

La compressione dinamica è essenzialmente come avere un dispositivo che monitora il livello del suono e abbassa la manopola del volume quando l'audio diventa troppo forte. Poi lo alza di nuovo quando l'audio si fa più silenzioso. Aiuta le persone a sentire sia i passaggi forti che quelli silenziosi allo stesso modo. È sostanzialmente identica a un essere umano con il controllo del volume che sta abbassando – e sottolineo che la compressione dinamica riguarda la riduzione del volume, da cui il nome.

Allora, da dove nasce la preoccupazione per la compressione?

La compressione dinamica rende il suono più silenzioso e questo è spesso indesiderabile, quindi è seguita da un controllo del volume preimpostato per renderlo più forte di nuovo. Poiché la compressione uniforma il livello del segnale, puoi scegliere una delle due opzioni. Può essere impostata per essere più silenziosa ma più facile da sentire, o più forte e più accattivante. Se posso fare una pausa nella discussione per un attimo e sottolineare un punto importante; se pensi che il suono sia troppo alto, abbassalo. Controlla sempre il livello di ascolto personale.

È’ non solo il livello che può essere sbagliato, ciò che si chiama le costanti temporali di un compressore conta anche. Infine, c’è il rapporto. Questo è spesso impostato troppo aggressivo e questo’ è la causa più comune della compressione che rende il parlato incomprensibile.

Una delle applicazioni più fastidiose è rappresentata dai circuiti di Controllo Automatico del Guadagno (AGC) mal progettati, sia nei vecchi apparecchi consumer sia negli algoritmi usati da alcuni PC. Gli AGC e i noise gate sono spesso impostati di default per essere attivati nei laptop e altri dispositivi. Quindi, la dinamica è sempre presente nelle nostre vite. Una compressione impostata male può tagliare i suoni plosivi e sibilanti, rendendo il parlato difficile da comprendere. Puoi percepirlo come una qualità opaca delle consonanti dure all'inizio delle parole, in particolare per la prima parola di una frase. Un altro segno di un AGC mal impostato si manifesta quando qualcuno pronuncia una parola forte seguita da una parola silenziosa e senti la fine della parola silenziosa ma fatichi a udire l'inizio.

Let’s passare a RSI. Come differisce la qualità del suono nella musica da quella del suono nella voce?

C’è molto che è comune, ma in ogni caso devi fare attenzione a capire cosa sia il bene. Le persone prendono i numeri dalle registrazioni di musica classica realizzate in studi acusticamente trattati e li applicano al parlato. In alcuni aspetti il parlato è più facile di un’orchestra, e in altri è più difficile.

Le parti superiori della larghezza di banda, per esempio, non sono importanti per la voce come lo sono per alcuni strumenti. C’e un buon argomento per dire che con alcune percussioni la larghezza di banda è sovrana, mentre per la voce dovrebbe prevalere la fluidità. E’ il motivo per cui un ingegnere del suono utilizzerà un microfono diverso per una persona rispetto a quello che userebbe per un rullante o un cymbal.

So che alcune persone mi risponderanno urlando che le frequenze tra 18kHz e 20kHz sono vitali per la voce, ma non lo sono. In generale, i microfoni più buoni e più costosi che gli ingegneri del suono usano per la voce aren’t nessuno buono a quelle frequenze perché semplicemente don’t hanno bisogno di esserlo.

E questo non è solo un caso. Immagina di trovarti in una foresta e di ascoltare una persona a pochi metri di distanza con la bocca rivolta direttamente al tuo orecchio (e di essere abbastanza giovane da poter ancora sentire a 20 kHz). poi, se volti il viso in modo da poter vedere l'oratore e lui si gira di lato, non sentirai più la componente a 20 kHz, o almeno sarà molto ridotta. Queste frequenze molto alte non sono ben conservate nel mondo naturale e quindi non sono importanti per noi, perché la vita sarebbe impossibile se lo fossero.

Raggiungere la chiarezza è più sfumato di quanto le persone vogliano rappresentarlo.

Quindi, ai fini dell'interpretariato simultaneo, non è essenziale avere accesso a frequenze fino a 15.000 Hz?

La sfida qui è che potrei sembrare come se stessi dicendo che il secondo migliore è abbastanza buono, ma la verità di tutto ciò è che raggiungere la chiarezza è più sfumata di quanto le persone vogliano rappresentarla. Confrontando direttamente, una larghezza di banda di 15 kHz è migliore di 10 kHz per la voce, che è migliore di 6 kHz e così via.

Tuttavia, una risposta più piatta (più fluida) fino a 10 kHz può essere migliore per la comprensione rispetto a una risposta irregolare a 15 kHz. Allo stesso modo, un discorso che non è stato gravemente compresso dinamicamente con una larghezza di banda di 6 kHz può essere più facile da comprendere rispetto a 15 kHz di larghezza di banda con una compressione terribile.

Ciò che tutto ciò significa è che preservare la risposta in frequenza è importante, naturalmente, ma lo sono anche altri fattori, e nessuno renderà le cose perfette da solo. Il problema particolare della risposta è che, man mano che si sale nella scala, i ritorni diminuiscono significativamente. Quindi, la nostra tendenza a ossessionarci per le registrazioni più alte indica che è qualcosa che comprendiamo e possiamo descrivere facilmente, piuttosto che riflettere la sua reale posizione nella catena del valore.

Una larghezza di banda di 15 kHz o più deve far parte di un intero programma di buona prestazione, ma in senso letterale non è né essenziale per una buona e facile comprensione né la garantisce.

Ci sono affermazioni secondo cui le piattaforme RSI applicano una compressione della gamma dinamica che porta a un suono cattivo. È vero per Interprefy?

No. Non c’è bisogno di compressione dinamica del range in operazione generale. Non è detto che non la usiamo mai. Abbiamo qualcosa in laboratorio al momento che applica una compressione davvero entusiasmante. È progettata per gli ascoltatori, siano essi pubblico, delegati o interpreti. Può essere attivata da ciascuna persona se lo desidera o lasciata disattivata se non lo desidera. 

L'eccellenza nasce dall'applicare la tecnologia nel posto giusto e nel modo giusto. It’s riguarda la sintonizzazione, cercare la perfezione ad ogni passo e applicare piccoli cambiamenti incrementali in tutto il sistema.

Let’s parlare dei delegati per un momento, perché tutti noi abbiamo avuto quell'esperienza in cui un oratore suona semplicemente terribile.

Sì. Assolutamente Dora. E sono davvero appassionato di eliminarlo. I problemi davvero grandi sono le attrezzature molto scadenti usate da molti relatori e la loro mancanza di comprensione su cosa devono fare per garantire la qualità del suono.

Come lo risolviamo?

Come quasi tutto, la soluzione sta nell'affrontare molti fattori diversi. Abbiamo bisogno che gli speaker usino microfoni migliori, che siano più esperti delle tecniche di microfonazione e che prestino più attenzione al rumore di fondo e all'eco. C'è molto da educare qui, qualcosa che abbiamo anche iniziato con la nostra campagna video di housekeeping per gli speaker.

Possiamo anche usare la tecnologia per assistere qui. In futuro, tu e io potremo tornare su questo argomento e parlare di come la tecnologia può assistere le persone a migliorare la propria qualità e compensare i problemi quando non possono.

La grande differenza è tra attrezzature buone ben configurate e attrezzature scadenti, mal configurate.

Quindi, se confrontassimo il suono ricevuto tramite hardware, come una console fisica, e quello ricevuto tramite Interprefy, non’ ci sarebbe poca differenza finché l’oratore utilizza l’attrezzatura appropriata?

Sì, that’s giusto Dora. La grande differenza qui non è tra lavoro locale e remoto, it’s tra attrezzature migliori ben configurate e attrezzature scarse, mal configurate. Non c'è alcuna differenza intrinseca per un sistema locale basato su hardware in termini di qualità audio. Molti partecipanti a riunioni ed eventi che usano sistemi RSI hanno microfoni migliori dei loro equivalenti in loco. Alcuni desiderano partecipare usando dispositivi peggiori. Proprio come tutto il resto nel business, è necessario gestirlo adeguatamente.

Allora, qual è la differenza tra RSI e una soluzione basata su hardware?

Ciò che RSI offre è la scelta. Scelta attraverso la flessibilità. Quando mia moglie è rimasta incinta per la prima volta, il suo datore di lavoro, un uomo, le ha semplicemente detto che non aveva più un lavoro. Fortunatamente ora è illegale. Mi piace pensare che RSI significhi che quegli interpreti che non vogliono o non possono viaggiare possano lavorare in modo più flessibile. Non mi è piaciuto l’atteggiamento negativo che mia moglie ha subito e così come penso che i datori di lavoro dovrebbero fare tutto il possibile per permettere alle persone di lavorare, indipendentemente dalle loro condizioni o esigenze di stile di vita, credo sia nostro compito, come fornitori di sistemi, incorporare anche quella flessibilità.

Le soluzioni RSI sono flessibili anche per le organizzazioni. Puoi tenere una conferenza o una riunione ovunque e configurare o modificare l'impostazione istantaneamente. Recentemente abbiamo aiutato un astronauta a parlare al mondo mentre era sulla Stazione Spaziale Internazionale. Insistere affinché un astronauta partecipasse di persona sarebbe stato ovviamente ridicolo.

Tornando alla compressione, cosa diresti a coloro che chiedono di eliminare completamente la compressione?

Liberarsi della compressione, di qualsiasi forma di compressione, non è una soluzione miracolosa. Posso ribadire qui che non esiste una soluzione miracolosa. Parte della soluzione olistica è eliminare l'uso scorretto della compressione – sia della compressione dinamica scadente sia della compressione a basso bitrate. Ciò significa avere ingegneri che lavorano nel settore e che comprendono la tecnologia in dettaglio.

Che ne dici di usare più di una funzione di compressione una dopo l'altra. È automaticamente negativo?

Questo è noto come compressione a cascata. No, non è automaticamente negativo né per la compressione dinamica né per quella a bitrate.

Ci sono problemi specifici con la compressione a cascata e quando progetti soluzioni, devi lavorare sodo. È molto ragionevole preoccuparsi della compressione a cascata perché richiede molto sforzo per farla funzionare, ma se sei competente, può essere fatta. E fatta molto bene. Prendendo la compressione dinamica, per esempio, due delle più grandi innovazioni audio di sempre sono nate dall'uso della compressione dinamica a cascata.

Alcune persone sembrano essere particolarmente brave nella valutazione di fattori come la compressione, dovresti usarle per aiutarti?

C'è un solo modo per valutare l'audio e lo chiamiamo test cieco. Idealmente test doppio cieco. Chiunque ti dica di essere particolarmente bravo a percepire i problemi audio, chiedi se ciò avveniva in un test cieco, cioè un test in un programma in cui non sanno quale sia quale e che è condotto da qualcuno non coinvolto nella valutazione. Anche tutti i test dovrebbero utilizzare una varietà di ascoltatori.

Molte persone, probabilmente la maggior parte, pensano di avere un udito eccezionale, ma solo circa una su venti lo ha davvero. È come se tutti pensassimo di essere ottimi conducenti.

Un buon suono è qualcosa che si ottiene prestando molta attenzione e lavorando in modo olistico.

Alcune persone hanno opinioni molto marcate sulla qualità del suono e su come ottenerla. Qual è la tua risposta a loro?

Le persone che parlano in termini binari, che parlano in ‘musts’ e ‘must nots’ sono, come mi ha dimostrato l'esperienza, sbagliate. Non mi piace vedere la compressione o qualsiasi altro strumento audio ricevere un nome cattivo ingiustificato. Non perché ne sia particolarmente affezionato, o un sostenitore della compressione in particolare, ma perché, il buon suono è qualcosa che si ottiene prendendo molta cura e lavorando in modo olistico. I veri perfezionisti sono non-binari, usano l'intero set di strumenti, e non sono inclini a riduzioni semplistiche.

Tutta l'elaborazione del suono può essere eseguita male e bene. Se eseguita bene, significa che la configurazione corretta è usata e applicata dove è vantaggiosa. La compressione dinamica può essere terribile se è applicata male ma questo non significa che it’s sia universalmente sbagliato. Applicata correttamente, it's è una risorsa incredibile.