Sound Codification

25 julio 2008 § 5 comentarios


Este post yo no lo escribi obvio, lo pongo con la unica intencion de ayudar a los que andan por ahi con su reproductor de mp3 y viven peleando entre la calidad del sonido y el espacio en el reproductos, genios, cerebritos tecnicos, inconformens, favoritistas y avostumbrados a tal o cual formato o reproductor o lo que sea, si no pueden ser parte de la solucion, no sean parte del problema. .. .

https://i1.wp.com/www.tecnogadgets.com/fotografias/mtunes.jpg

Vamos a partir por el principio. Hasta que me jubile en forma forzosa, desde hace 22 años trabaje en el mundo de la musica y seguro soy uno de los primeros en argentina que aplico el uso de computadoras en la cadena de produccion de audio analogico y digital. Tengo un estudio de masterizacion de audio aqui, uno en caracas y uno en houston. Y he montado estaciones de trabajo durante mas de una decada. Asi que esto no es lo que lei en un weblog ni cito una fuente de solo dios sabe donde. La fuente soy yo y 22 anos de hacer mas o menos lo mismo todos los dias. Ahora me dedico a escribir novelas tras haberme operado del corazon. Con esto quiero exterminar la perdida de tiempo respecto de las opiniones personales y la esclavitud de puntos de vista. Aca vamos a hablar de hechos y soluciones. No todas les van a gustar, pero lo malo de la verdad es la realidad.

Tienen el reproductor de mp3, o el celular… Lindo. Hace 20 anos hubieramos matado por tener algo que hiciera el 5% de lo que hace el reproductor mas pedorro que puedan concebir y aun asi, hemos grabado discos del carajo.

https://i0.wp.com/www.nyamobiler.se/wp-content/uploads/2007/11/sony-ericsson-w380.jpg
Ahora, la realidad es que muchos de nosotros, sobre todo los que no leemos los manuales o no vamos a las fuentes (que usualmente hablan en ingles y si decis NO ENTIENDO, te banean.) Asi es que vamos de debate en debate acerca de que formato, modo, manera o tecnica es mas o menos rendidora, conveniente, economica, rapida, etc.

Vamos a tomar 2 ejemplos, el reproductor mp4 chino de 200 mangos que parece un ipod pero no lo es, y el clasico reproductor java de celular.

Tenemos varias problematicas que resolver: Como hago para meter la mayor cantidad de temas en el aparato? Como hago para aumentar la calidad de audio de lo que escucho? Por que si uso tal formato la bateria se me muere en dos minutos? Por que uso x calidad de audio y todo suena para la mierda?

MITO: Mi reproductor es mejor que el tuyo.

Tengo una pesima noticia para todos aquellos que gustan de mear mas lejos que los demas.
Tanto los celulares como los reproductores de mp3, los reproductores de CD o DVD son sistemas cerrados basados en un joint venture de empresas que le encargaron a ciertos fabricantes el diseno de un microchip que pudiera estandarizar la reproduccion de audio. Estas empresas son: Sorensen/Motorola, Sony, Phillips y Texas Instruments. el chip de sorensen es el del Ipod, el de los CD de Phillips, el de los DVD de Sony y el de los mp3 de Texas.
Listo, se acabo, no importa que tan caro compren el aparato de su preferencia, el mas pedorro y el mas caro tienen el mismo chip con la misma programacion interna para reproducir medios digitales. Monopolicos? Mas les vale.
Asi es que la calidad no depende del reproductor… Tonces?
En los estudios de grabacion hay un lema que es como el juramento hipocratico del ingeniero de sonido o del productor… Entra caca, sale caca.
En materia de reproductores habria que añadir: Y si sale caca, sale horrenda o no tanto de acuerdo a que auriculares le pongas.
La unica cosa que revela la calidad y sonoridad de un medio digital empieza y muere en los auriculares. Ponele a un mp3 chino con mp3 de calidad intermedia un par de auriculares Shure y vas a descubrir dos cosas: Que realmente los auriculares que vinieron con el reproductor solo pueden servir a los hipoacusicos, y que el codec mp3 es la cagada mas grande que puede existir.

Por que Azazel??? Me estas cagando la vida !!! Yo crei que el mp3 era un formato del carajo.
Es el problema de la masificacion y el coma caca…
Vamos a ahondar un poco en el asunto.
MPEG-1 Audio Layer 3, este es el nombre del MP3. La idea nacio a principios de los ochenta gracias a un cientifico matematico que nos salvo la vida a todos los productores de audio, el modelado psicoacustico. El tipo escribio una serie de formulas para reorganizar la estructura en que el audio debia ser procesado de acuerdo a la manera en que era escuchado. Manfred Schroeder, gran tipo, lastima que se murio. Nombralo en un estudio de grabacion profesional y te pagan el cafe. Todo lo que se descubrio en las propiedades de procesamiento de audio se lo debemos a el, y en la comparacion, es Einstein. A partir de una de sus formulas, Fraunhoffer IIS desarrollo un dispositivo para codificar (NO comprimir… espantoso concepto tomado de otro lado para representar lo que realmente hacemos con el audio cuando lo convertimos) y decodificar (que es lo que pasa cuando reproducimos dicho audio. Un compresor de audio es un dispositivo que normaliza las transientes de audio, de modo que lo que suena muy bajito suene con la amplitud de lo que suena mas al frente y viceversa, de modo que no haya descompensacion sonora a lo largo de la cancion… Si algun ex alumni me lee esta explicacion me caga a patadas y me pide que le devuelva la guita) audio digital. Esto nacio por la necesidad de encontrar un medio economico y fiable para guardar la mayor cantidad de datos. Backup, bah.

https://i0.wp.com/regmedia.co.uk/2007/09/11/apple_ipod_classic_1.jpg

Bueno, no sirvio ni en broma para el fin que pensaban, porque el codec se lleva de plano el 50% de la calidad del audio original para empezar, pero como nada se pierde y todo se transforma, se dieron cuenta que esas instrucciones de decodificacion eran muy simples de operar a traves de un chip, asi que le dieron a Texas Instruments los datos y asi nacio el primer reproductor de mp3 que fue… la primer placa de audio SoundBlaster de Creative. Si piensan que una cancion sin comprimir de 5 minutos puede pesar de 55 a 60 mb, la idea de comprimir (AGH!) a 5 o 6 mb era por lo menos simpatica. Estamos hablando de 1991 mas o menos, un disco rigido en esa epoca era con la furia 50 mb.
Posteriormente el chip se aplico a reproductores portatiles y se produjo una de los misterios mas grandes del mundo despues de la desaparicion de las bolitas de vidrio. Donde mierda fueron a parar los 150.000.000.000 de walkman que andaban dando vueltas por ahi en menos de dos años????? Cuando tuve el primer tv a color en el 78, hasta el 82 el blanco y negro estaba en la cocina hasta que un dia dejo de existir… Pero la verdad? no recuerdo que paso con mi ultimo walkman, un Panasonic.
MP3, si, ya se… me fui de tema. O no.
El codec MP3 cumplio una funcion muy copada en su momento, pero ni en broma era una solucion ni lo es ahora. El por que es sencillo. Es un formato destructivo de codificacion.
Como funciona el MP3?
Clase de fisica, saquen una hoja.
El oido humano soporta una tasa de transferencia de resolucion de audio (se llama asi, no me puteen) de no mas de 22 KhZ, vale decir, una señal de audio se percibe en una frecuencia que se repite 22000 veces. 22001 y lo que se reproduce solo lo escuchara tu perro. Una cosa rara del sonido. Si lograras detonar una bomba nuclear en una frecuencia de mas de 22000… no escucharias la explosion, pero igualmente tus oidos saltarian como un corcho y dejarias las corneas en el piso. El oido humano no retiene ni interpreta una senal mas alta no importa la presion en el aire que le apliques, pero te rompe los oidos igual, porque no los interpreta pero que los escucha, los escucha.

https://i2.wp.com/upload.wikimedia.org/wikipedia/commons/thumb/2/2e/Engineer_at_audio_console_at_Danish_Broadcasting_Corporation.png/350px-Engineer_at_audio_console_at_Danish_Broadcasting_Corporation.png

Y aqui es donde el mp3 huele mal.
El mp3 usa una formula matematica que elimina de la senal de audio todas las transientes moduladas(variaciones del sonido en altura, amplitud y volumen) que esten por encima de los 22000 khz. Ok, mantengan las cejas en su lugar, ya se cual es la pregunta:
“Entonces por que mierda codifico el mp3 de aldo y los pasteles verdes en 44 khz???”
Justamente, pequeno saltamontes… Se procesa el audio al doble de frecuencia del alcance del oido humano porque la combinacion de senales de audio que componen un sonido en lo audible y lo inaudible estan muy por encima de los 22khz, por lo tanto, 44 khz o 44100 hz es una norma aceptable universalmente y por ende, requerida sine qua non. De hecho… tengo una mala noticia para los que van por la vida pensando que mas murra es ser mas power.
La resolucion de los CDs es de 44100 hz a 16 bits de resolucion. Algunos son a 20 Bits de masterizacion, pero se reproducen a 16 bits. Por lo tanto, y esto no le va a hacer gracia a ninguno… si convertis un mp3 de un CD (o sea, lo que hace todo el mundo) y lo haces a, supongamos, 48.000 hz en 24 o 32 bits… no estas mejorando la calidad del audio ni por error, al contrario. Le estas aplicando distorsion digital por un lado, y provocas un problema de la edicion de audio digital, un fenomeno llamado artifacts, que requiere de un proceso bastante complejo llamado noise dithering para sacartelo de encima. Si quieren un ejemplo, bajense en mp3 el disco de charly garcia “Yendo de la cama al living” y veran lo espantoso que suena, sin vida, hueco, deformado, irreal y como si sonara a traves de un papel celofan. Se acuerdan de los Cds AAD y ADD? Bueno, hoy ninguno de esos CDs pasaria el menor standard de calidad de reproduccion. Y es por esto, que lo descubrieron tarde. Quien descubrio el asunto del dithering con lo que toooodos los estudios de grabacion respiraron hondo? Manfred Schroeder. Nos salvo el negocio a todos.
Asi es que el mp3 elimina del audio todo lo que el oido humano no escucha… pero “siente”. Manfred Schroeder es el que puso negro sobre blanco la cuestion y lo llamo percepcion psicoacustica del audio. Un ejemplo claro de esto. Se ponen auriculares, oreja izquierda, oreja derecha. Ponen “I don’t like the drugs but the drugs like me” de Marilyn Manson. Escuchan musica a la izquierda, a la derecha y en el centro de la cabeza… Pero !!! No tenemos oreja central !!!
Percepcion Psicoacustica, Un capo Manfred.
De la misma manera, el oido humano no escucha lo que esta por encima de los 22 khz, pero lo siente. Y a veces siente mas esto que lo que realmente escucha. LO que se siente de la musica es lo que le da muchisimo del valor de la onda de un tema. Lo impresivo de una cancion, por decirlo asi. Escuchen el disco de Quincy Jones, Back on the block… no gano 700 grammy porque si con ese disco, y ahi hay un gran aprovechamiento de la psicoacustica.

Asi que si le arrancas a un tema esto… que te queda?
Entonces vienen los formatos no destructivos o loseless.
Hay una coleccion enorme, flac, atrac, ogg, etc. Todos son bastante inutiles en comparacion con la senal sin codificar. Aplicar la codificacion menos destructiva es muy destructiva por definicion. Y el problema se agudiza cuando a eso le entras a meter loudness, ultra bass y todas esas cosas que se supone que optimizan el audio. Lo unico que optimiza el audio es el oido humano y un buen par de auriculares. Ahora, la extensa mayoria de los reproductores tienen 1 Gb de memoria, si metes musica sin codificar ( y la mayoria no soporta audio sin codificar, para peor), te vas a encontrar que con la furia podes hacer entrar 12 o 15 temas como mucho. No esta mal. No comprendo para que uno querria meter 1000 canciones de prepo como si los fueran a mandar en mision colonizadora a Urano. Eso sin contar que si escuchas mas de 30 canciones por dia con auriculares, en dos anos vas a ver que lindo es escuchar zumbidos y pitidos en silencio: habras adquirido una dolencia incurable y rapidamente degenerativa llamada Tinnitus. Esto es, como el oido se acostumbra a una determinada dosis de audio promedio, al estar en silencio y no escuchar audio a cierto volumen, el oido necesita funcionar como un adicto a la merca en estado de abstinencia, y como no escucha audio, genera su propio ruido en forma de zumbidos. Los oidos se parecen un poco a los asesinos seriales y la falta de relief. Si cuando se acuestan a dormir, en silencio, escuchan un pitido en uno o ambos oidos… pongan el volumen al 40% y dejense de joder o van a sufrir gratis.

https://i2.wp.com/www.harmony-central.com/articles/tips/mp3_and_the_pro_studio/306_MP3HighFreqs.gif

Entonces, que hacemos?
Veamos. Tenemos varias alternativas como paliativo.
MP3, en sus dos versiones legendarias, LAME y Fraunhoffer IIS, (no me gusta, pero hay que ponerlo) tiene ciertos standards: frecuencia de 8 khz a 48 khz, de 8 a 24 bits de resolucion(El LAME solo hasta 16 Bits y solo la version comercial de Fraunhoffer hasta 24 bits) y un ancho de banda de 4kbps a 320 kbps. EL standard con mp3 ha sido historicamente de 44 khz, 16 bits y 128 kbps… Mi recomendacion: 44 khz, 16 bit y 192 kbps o mas. Menos de 192 kb te come mas del 70% de todo el audio psicoacustico perteneciente a los bajos del tema, y los bajos del tema son, a ojo de buen cubero… el 70% del tema.
WINDOWS MEDIA AUDIO. Ni me molesto en discutirlo. NO. Es el mas destructivo de todos, porque ademas de eliminar frecuencias por encima del rango, pretende eliminar el artifact a traves de un algoritmo de prediccion que anda como el culo, por lo cual es como predecir el clima del mes que viene basado en el clima del mes pasado. Asi que cuando falla en eliminar el artifact… elimina audio!!!.
Para los que prefieren tener 12000 temas con calidad razonable y son capaces de sacrificar calidad por cantidad (es como el sexo antes de los cuarenta) les recomiendo como alternativa usar el codec MP3pro de la empresa RCA (la del perrito frente a la fonola) que es el codec MP3 codificado como una replicacion de espectro de banda (es mas enquilombado de lo que piensan explicarlo), por lo que los archivos terminan pesando la mitad con la misma resolucion APARENTE. Las mayusculas son para que no me puteen. Para ponerlo en facil, se escucha mucho mejor un mp3pro en 96 kbps que un mp3 con el mismo bitrate, porque en el entorno de mp3pro, 96 kbps es lo mismo que 320 kbps. Todo lo que reproduzca mp3 reproduce mp3pro. Y es un pelo menos destructivo. Creo que el Nero Encoder tiene ese codec. Ahi no escatimen, denle al palo.
MP4 o MPEG-4 Part 14 que es como se llama, no es un codec de audio. El ipod que usa este codec lo usa para video unicamente y no para audio. Para audio utiliza AAC MPEG-2 Part 7, del que ahora vamos a hablar.
El AAC, esta bueno, quizas de todos los formatos ordinarios de codificacion sea el mejor. Contrario al formato MP3, que solo soporta hasta dos canales, AAC soporta 48, lo que lo hace barbaro para bajar grabaciones multipistas en baja resolucion, pero aqui no nos interesa. Lo que SI interesa es que tiene un sistema predictivo que realmente funciona. Pero sigue siendo destructivo, ojo al piojo. De acuerdo al programa que usen, varian las opciones de calidad/tamano. 224 kb, en 19500 hz, main profile en mpeg 4 esta bien para empezar. Es menos destructivo bajando el tamano de los archivos que el mp3, pero no hace mucha diferencia cuando se usan bitrates mas altos. Si tu reproductor soporta este tipo de codec, dale para adelante. El FAAC es la version gratuita de este codec, pero no es la mejor, la que realmente mola es el HE-AAC v2, conocida como aacPlus v2 o eAAC+ que usa resolucion stereo parametrica, y permite mejor calidad con resoluciones aun mas bajas que las estandarizadas para el AAC. Vale decir, el HE-AAC es el MP3pro del MP3. Si tu aparato lee AAC, lee cualquier version de AAC.
OGG Esta bueno, toma lo mejor del MP3 y lo peor de AAC, pero funciona y es gratuito. Como no se que reproductor lo usa, si es que alguno lo usa, no lo voy a discutir. La parte buena, quizas sea mejor que los antes mencionados en relacion con la tasa de compresion de tamano de archivo. Pero la parte mala… no tiene practicamente ninguna mejora a nivel de modelado psicoacustico del audio, por eso es gratuito. El PSA model tiene licencias restringidas.
Si me dan a elegir, AAC, preferentemente HE-AAC v2.
Ok, pero esta garantizado que si codificamos, arruinamos la verdad del audio.

Algunos habran notado que de acuerdo a como se codifica un archivo, mayor o menor es el consumo de bateria del medio reproductor. Logico, es un chip que levanta temperatura cuanto mas pesado es el proceso que resuelve… Bien… Parte mala del asunto: Cuanto menor es el tamano que tiene un archivo, vale decir, cuanto menor es su bitrate en kbits… mayor el dispendio de energia que el reproductor tiene que hacer, porque multiplicamos exponencialmente los calculos de decodificacion que tiene que hacer el aparato… Y olvidenlo, no le podes poner un cooler al celular, no? O si… pero no creo que haga mayor diferencia.

https://i1.wp.com/www.blazemp.com/Shots/Audio_Editor_Small.jpg

Que hago ahora?

Bueno, aqui es donde tallan las dos cosas fundamentales al escuchar musica. Los mejores auriculares que puedan conseguirse. No escatimen. Ademas de que probablemente retrasen el Tinnitus 4 anos en vez de 2, a mayor calidad, mayor rango de resolucion. Yo uso en el celular (un nokia pedorro) o en la Palm (una lifedrive) un par de auriculares Shure E5c. No se los recomiendo. Yo los uso por motivos esteticos y profesionales, pero cuestan en yanquilandia unos 500 dolares. Olvidense de los que vienen con cancelacion de audio. Es como querer ver mejor con anteojos que eliminen las sombras y las luces fuertes. Lean las especificaciones. Ahi se van a dar cuenta solos.
Usualmente, es menester tirar los auriculares originales que vienen con los reproductores y esto es valido tambien para los Ipod. Entre el ipod y el mp4 chino (que no reproduce video mp4, sino AMV, que es una cagada) en materia de reproduccion de audio mp3 o aac no hay ninguna diferencia. El unico juego de auriculares original que recuerdo que pueda considerar realmente mejor que el promedio son los que venian con los walkman y discman de Panasonic. Pero se los hace Technics. Del monton, me parecen los mejores, pero va en gustos.
Aqui entonces vamos al detalle final.
Saquen todo lo que sea mejora del sonido. BBS, MBS, ultrabass, superbass, megabass, loudness… Piensenlo de este modo, si quienes laburaron en las canciones hubieran querido que las mismas sonaran como si las metieran en la oreja con un palo, lo hubieran hecho en estudio porque les sobran herramientas para hacerlo. De hecho… si en un estudio de grabacion alguien llega a pedir que el tema suene como si le hubieran aplicado cualquiera de estos efectos de post proceso… al rato aparece en una zanja con un tiro en el oido. Por que? Porque nada en el universo suena aumentado de esa manera y por el solo hecho de aumentar los bajos y la percepcion de los bajos, se pierde casi toda la integridad del resto de los instrumentos, ni hablar de las sutilezas. Y a eso hay que sumar que la mayoria de los reproductores no reproducen audio sin codificar con perdida de calidad… Y que lo que mas se pierde es la calidad de los bajos… como se puede entender que pongamos los bajos al recontra palo para mejorar lo que ya hemos arruinado? Es como curar el cancer inyectandose sangre con sida.
Quieren mejorar la calidad que redujeron al codificar de una manera al menos practica y con sentido?
El ecualizador, ese aparatito que la mayoria de las veces usamos como un carnicero haria una operacion a corazon abierto. Herramienta maravillosa. No me voy a poner en este momento a explicar el como ni el porque… pero les voy a dejar un tip.
Si quieren utilizar una ecualizacion standard como para recuperar lo que se perdio en la codificacion, la cosa es como sigue. Yo les tiro un modelo, ustedes toqueteen a gusto… pero no demasiado. Pretender una ecualizacion de dios es al pedo, porque cada tema es diferente. Pero esto es para recuperar parte de lo que es sabido que se pierde al codificar.
Voy a tomar como modelo la imagen del ecualizador del itunes, pero no se guien por lo que aparece ahi. En mi criterio personal, no se ajusta esa configuracion a lo que queremos lograr.

En la imagen tenemos un ecualizador de 10 bandas. Usualmente los reproductores tienen uno de cinco. Siete como mucho. Como no puedo editar la imagen (por vago y porque estoy escribiendo esto esperando que mi mujer rompa bolsa de una vez, asi que no estoy como para editar fotos…) les pido la colaboracion de la imaginacion. Imaginense que tienen un ecualizador de cinco bandas unicamente. A la izquierda los bajos, a la derecha los agudos.

Las bandas se mueven desde el centro en 0dB hasta +12 y -12 dB. Vamos a poner mentalmente todas las bandas del ecualizador en el centro, a 0dB. Esto significa que no estamos agregando ni quitando potencia a ninguna frecuencia (rango de frecuencias en realidad. Cada slider controla un juego de frecuencias y estos juegos se interpolan entre si. ) Vamos a agregar lo que restamos al codificar a partir de lo que el protocolo de codificacion mp3 o aac utilizan. Recuerden, saquen todas las cosas, wide stereo, bbs, megabass… Fuera bicho.

De derecha a izquierda, vamos a agregar potencia a cada rango de frecuencias que controla cada slider.
numeradas del uno al cinco de derecha a izquierda, es como sigue:

UNO: +1 dB (BAJOS)
DOS: +2 dB (MEDIOS DE LOS BAJOS)
TRES: 0 dB (MEDIOS)
CUATRO: +1dB (MEDIOS DE LOS AGUDOS)
CINCO: 0dB (AGUDOS)

Con el uso de la imaginacion, pueden extrapolar estas proporciones (porque esto es lo que son) a tantas bandas como tenga el ecualizador que usan. Eso es lo que se pierde segun el standard de MPEG segun su documentacion.

Ahora, que logramos con esto?
Con esto logramos acercar la senal que estamos oyendo al estado original de la grabacion, como si el ecualizador estuviese todo en 0dB. Vale decir, escuchariamos lo mas cercano al audio original previo a la codificacion y perdida de calidad.
No son valores absolutos, porque cada tema es diferente, pero como standard esta mas que bien. Ponerle o quitarle mas de 3 dB por banda es completamente irreal. Y no hace mas que seguir deteriorando una senal ya deteriorada.
Bueno, me escribi todo.
Si tienen dudas, pregunten. Solo les pido, no sean como la mayoria.
Abriguense que esta fresco y que Videla no se les mude al barrio.

Anuncios

Etiquetado:, , , , , , , , ,

§ 5 respuestas a Sound Codification

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

¿Qué es esto?

Actualmente estás leyendo Sound Codification en José Lascano.

Meta

A %d blogueros les gusta esto: