quinta-feira, 9 de junho de 2022

Recomendações de atualização de volume do AES para streaming somente de áudio.

Recomendações de atualização de volume do AES para streaming somente de áudio




Em 2015, a AES agarrou a urtiga e produziu um documento fundamental para tentar fornecer algumas recomendações de volume para streaming apenas de áudio, para complementar os padrões de transmissão já em uso. 6 anos depois, eles publicaram um conjunto atualizado de recomendações para substituir as recomendações de streaming de áudio de 2015. Neste artigo, nosso próprio guru do volume analisa as novas recomendações para ver o que mudou.

É minha opinião que este documento terá um impacto sobre streaming de música, podcasting, streaming de rádio, inserção dinâmica de anúncios e até mesmo assistentes virtuais e se destina a dar a todos nós uma melhor experiência de escuta, não importa como ou o que ouçamos.

O BG

Em 2015, houve alguma discussão sobre qual loudness usar para conteúdo de streaming de áudio em plataformas como iTunes Radio, Spotify e YouTube, etc.

Na época, não havia um padrão para o conteúdo de streaming de áudio, ao contrário dos fluxos de trabalho de transmissão que se estabeleceram em um padrão, embora com uma série de especificações de entrega em todo o mundo com base em cerca de -24 LKFS e -23LUFS e um pico verdadeiro máximo de -1 ou -2dBTP.

Há muito tempo que se pensa que o padrão de broadcast de -23LUFS ou -24LKFS não seria adequado para dispositivos portáteis porque não há ganho suficiente nos amplificadores de fone de ouvido para fornecer um volume aceitável.

Como resultado, uma série de serviços, incluindo iTunes Radio, estabeleceu-se em -16LUFS. No entanto, o YouTube foi para -13LUFS e Spotify inicialmente foi para cerca de -11LUFS usando ReplyGain em vez de BS 1770, embora eles posteriormente mudaram para 14 LUFS, e agora usam o padrão ITU 1770 de acordo com seu artigo Loudness Normalization .

Para fornecer algumas recomendações para conteúdo de streaming de áudio em 2015, a AES publicou o Documento Técnico - AES TD1004.1.15-10 - Recomendação para Intensidade de Streaming de Áudio e Reprodução de Arquivo de Rede em que recomendou uma janela entre -16 e -20LUFS com um máximo verdadeiro pico de -1dBTP.

Quando se trata do pico verdadeiro máximo, fiquei surpreso com o limite de -1dBTP. As especificações de distribuição do EBU R128 recomendam acertadamente um pico verdadeiro máximo de -3dBTP porque codecs com perdas, que estão no centro deste tipo de entrega de conteúdo, não podem lidar com picos muito acima de -3dBTP. Se você já trabalhou com ferramentas como o plug-in Sonnox Pro Codec do MasterCheck Pro da Nugen Audio, você descobrirá que os níveis de pico acima de -3dBTP ainda podem distorcer esses codecs e, portanto, meu conselho é sempre usar um verdadeiro limitador de pico configurado para - 3dBTP.

O que mudou entre TD1004 (2015) e TD1008 (2021)

Meu primeiro conselho é que, se você estiver entregando conteúdo de áudio para serviços de streaming apenas de áudio, você deve ler as recomendações AES TD1008 na íntegra e provavelmente precisará ler mais de uma vez, pois há muitos conselhos e uma explicação integrada nas recomendações mais recentes e um chapéu para os autores, não apenas por produzir um conjunto de diretrizes, mas também por fornecer o histórico e as explicações de por que eles chegaram a essas recomendações.

O que compartilhamos aqui neste artigo não se destina a substituir a leitura dessas recomendações mais recentes, mas deve ser usado junto com as recomendações.

Para começar, o AES deixou claro quais são os objetivos de suas recomendações ...

Ele se destina ao uso por distribuidores de fluxos de áudio da Internet e arquivos de áudio sob demanda.

Não se destina a conteúdo de som com imagem (Over-The-Top ou Vídeo On-Demand). As diretrizes para esse material são abordadas em outras recomendações e padrões da indústria (por exemplo, AES71-2018).


Você pode estar se perguntando por que estamos nos concentrando nessas recomendações se elas são para distribuidores? A AES prossegue afirmando que embora este documento “não forneça recomendações para a produção de conteúdos. No entanto, os criadores e produtores de conteúdo irão considerá-lo essencial para o seu trabalho ”.

Eles também reconhecem que este é um processo evolutivo “para acomodar o ganho máximo inadequado e a capacidade limitada de metadados de alguns dispositivos de reprodução atuais e mais antigos”.

O AES deixa claro que o ponto final deste processo evolutivo é um desejo de trazer os padrões de volume de streaming de áudio em linha com os padrões de transmissão e OTT de -23 / 24LUFS, pois os dispositivos são projetados e construídos com ganho suficiente na cadeia de reprodução e também suporta metadados estendidos. No entanto, ainda não chegamos lá. Nas recomendações de 2021, o AES está agora olhando para uma janela entre -14LUFS para a faixa mais alta de um álbum e -18LUFS para conteúdo envolvendo fala.

Voz e música não têm a mesma intensidade



Há uma tabela detalhada que apresenta diferentes alvos e tolerâncias para diferentes tipos de conteúdo apenas de áudio. Um dos destaques, para mim, no TD1008 é a seção intitulada Fala Vs Música na seção 5 sobre Intensidade e Normalização.


“Numerosos testes e estudos independentes concluíram que ajustar as partes da fala do conteúdo de áudio para um volume consistente leva a uma maior satisfação do ouvinte. No entanto, testes formais com painéis de audição mostraram que a fala normalizada para o mesmo BS.1770 Loudness integrado da música é normalmente percebida 2 a 3 dB mais alta do que a música. Portanto, se operacionalmente viável, a experiência do ouvinte pode ser melhorada normalizando a música 2 ou 3 LU acima da fala.


… É adicionalmente recomendado que a música seja normalizada para uma média de -16 LUFS em operações onde a música e a fala são normalizadas separadamente e reproduzidas automaticamente. A normalização da música pode ser implementada por meio da Normalização do Álbum ou da Normalização da Faixa. ”

Essa ideia de que a música pode ter um volume integrado mais alto do que a fala é interessante. Ainda estou para fazer minha própria pesquisa, mas a evidência que eles citam vem de 2 documentos disponíveis na Biblioteca de Documentos AES ...




Quando se trata de rádio, que consiste em uma mistura de música e fala, existe uma segunda mesa, que faz recomendações de sonoridade para diferentes gêneros…

Notícias / Discussão -18LUFS
Música Pop -16LUFS
Formato Misto -17LUFS
Sport -17LUFS
Drama -18LUFS


com a sugestão de que os provedores podem refinar ainda mais esses números com base na proporção da fala para a música em seus streams específicos.

Eu não sei sobre você, mas isso parece ir contra o conceito de que ITU-R BS 1770 e sugere que é de alguma forma falho, que a intensidade integrada da fala e da música é diferente, que um 'fator de distorção' 2LU é necessário para compensar as deficiências aparentes do algoritmo BS1770.

Normalização de Álbum

O segundo destaque das Recomendações TD1008 é o uso da Normalização do Álbum, em oposição à normalização da trilha. Com a normalização da trilha, todas as trilhas ficam igualmente altas. Com a normalização do álbum, apenas as faixas mais altas de um álbum são tornadas igualmente altas e as outras faixas mantêm o volume relativo que tinham em seu álbum. Se alguém escuta um álbum, a normalização do álbum faz mais sentido. Mas, durante o streaming, as pessoas não ouvem apenas os álbuns como um todo, mas também as faixas escolhidas aleatoriamente em listas de reprodução embaralhadas. Portanto, a questão é: a normalização do álbum funciona para uma lista de reprodução embaralhada também? A resposta parece ser sim.

Por exemplo, uma parte da pesquisa foi realizada em cooperação com a TIDAL usando uma pesquisa em 4,2 milhões de álbuns de seu catálogo. Eles compararam a normalização da faixa com a normalização do álbum, mas não ouvindo o mesmo álbum, mas uma combinação de faixas de uma variedade de álbuns em uma lista de reprodução embaralhada de 24 canções com 38 temas. Descobriu-se que 80% dos sujeitos preferiam a normalização do álbum, embora as faixas que usamos tivessem uma diferença significativa no volume, de até 10 LU.
Compatibilidade Mono



O último destaque dessas recomendações é o tempo e os detalhes gastos na produção, distribuição e reprodução de canal único (mono). Mais uma vez, não vou entrar em detalhes do que é discutido e recomendado em TD1008, a não ser para dizer que, como alguém que é muito antiquado, quando se trata de mono compatibilidade, é muito gratificante ver o cuidado e consideração dados a este problema e o uso apropriado de uma mudança de fase de 90 graus ao combinar um sinal estéreo em um sinal mono para uso com reprodução de um único alto-falante.
Há muito mais ...

Estes são meus 3 destaques das mais recentes recomendações TD1008 para volume de streaming de áudio da Internet e distribuição sob demanda, mas o documento vai em muito mais detalhes e cobre uma ampla gama de tópicos e fornece uma educação de alta qualidade sobre os porquês e os motivos de volume e porque eles escolheram os padrões oferecidos nas recomendações. Se você está produzindo conteúdo para serviços de streaming de áudio, aconselho-o a lê-lo na íntegra.
Não ignore

Eu também espero que essas recomendações do AES deixem claro que ninguém no negócio de áudio profissional, criando conteúdo, pode ignorar mais o loudness e o LUFS. Importa, goste você ou não, são as medidas que estão sendo usadas agora para praticamente todos os métodos de entrega de conteúdo criativo ao consumidor.

O último destaque dessas recomendações é o tempo e os detalhes gastos na produção, distribuição e reprodução de canal único (mono). Mais uma vez, não vou entrar em detalhes sobre o que é discutido e recomendado em TD008, a não ser para dizer que, como alguém que é muito antiquado quando se trata de mono compatibilidade, é muito gratificante ver o cuidado e consideração dados a esse problema e o uso apropriado de um deslocamento de fase de 90 graus quando combinado um sinal estéreo em um sinal mono para uso com reprodução de um único alto-falante.
Muito mais

Estes são os meus 3 destaques das mais recentes recomendações TD1008 para volume de streaming de áudio da Internet e distribuição sob demanda, mas o documento é muito mais detalhado e cobre uma ampla gama de tópicos e fornece uma educação de alta qualidade sobre os porquês e os motivos de volume. Se você estiver produzindo conteúdo para serviços de streaming de áudio, precisará lê-lo na íntegra.
Não ignore

Eu também espero que essas recomendações do AES deixem claro que ninguém no negócio de áudio profissional, criando conteúdo, pode ignorar mais o loudness e o LUFS. Importa, goste você ou não, são as medidas que estão sendo usadas agora para praticamente todos os métodos de entrega de conteúdo criativo ao consumidor.

Isso também vale para todos os provedores de serviço de streaming. Em última análise, cabe a você implementar essas recomendações, o AES não pode aplicá-las.