Estimación de parámetros acústicos usando una canción como entrada al sistema

estimacion

Ricardo Quintana / Departamento de Investigación, RAQS E.U.

Diego Patiño y Fredy Ruiz / Departamento de Electrónica, Pontificia Universidad Javeriana 2

AbstractEste artículo trata el problema de hallar la respuesta al impulso, incluyendo la posibilidad de usar una canción como señal de medición durante el proceso. El método más utilizado en la estimación dela función de transferencia es el llamado EmpiricalTransfer Function Estimate.

Después se plantea una modificación con vectores acumulados de tal forma que los datos analizados tengan la energía en frecuencia necesaria para una estimación. Finalmente, se realizan simulaciones demostrando la factibilidad de estimar la respuesta al impulso y una comparación con respecto al ruido rosa.

I. INTRODUCCIÓN

En un recinto, el sonido viaja a través del aire, entre el emisor y el receptor, como sonido directo o sonido reflejado. Estos dos fenómenos pueden ser aproximados por un sistema lineal, por lo tanto la suma de ellos también será otro sistema lineal [1]. Por este motivo, se asume que el sistema se puede caracterizar por medio de la respuesta al impulso como respresentación matemática. 

Lo que se conoce como medición de la respuesta al impulso en [2] y [3], y en [4] como estimación de la respuesta al impulso, consiste en medir la entrada y salida del sistema y procesar los datos con el fin de obtener un modelo matemático lineal que pueda representar la relación entre los datos de la entrada y salida del sistema. En los estandares [2] y [3], el sonido emitido debe ser un impulso, el ruido MLS o la señal conocida como long sine sweep. Mientras que [4] únicamente hace referencia de la energía en frecuencia dependiendo del número de parámetros a estimar con los cuales se halla la respuesta al impulso.

Actualmente, existen sistemas de acústica variable que permiten tener diferentes respuestas al impulso. El objeto de estos sistemas es controlar uno o multiples parámetros acústicos deseados, cancelar ecos, etc. Con el fin de obtener estos objetivos, los sistemas deben estimar la respuesta al impulso de forma consecutiva e incluso sería ideal hacerlo en presencia de audiencia. 

Con estos objetivos, en varios casos, se han utilizado algunos métodos basados en la aplicación de la transformada de Fourier, transformada wavelet, expansiones de bases ortogonales, etc. Aunque se aconseja utilizar ruido rosa, señal MLS o long sine sweep en la entrada del sistema [2], [3], [5], [6], [7]. De todas formas, no es conveniente utilizar estos métodos en un sistema de control debido al costo computacional o si la audiencia debe estar presente. [8] propone un método que permite reducir el costo computacional para la estimación de un sistema de respuesta al impulso finita y se menciona la posibilidad de utilizar señales de entrada diferentes a ruido.

Aunque el ruido no es completamente necesario para hallar la respuesta al impulso, la señal de entrada si está limitada con respecto al número de datos y no es factible hacer una estimación con cualquier entrada. Este documento hace un análisis de las ventajas dadas por el método llamado vectores acumulados verificando la factibilidad de hallar la respuesta al impulso usando canciones.

Este artículo se divide de la siguiente manera: la Sección 2 explica la metodología de identicación de sistemas; la Sección 3 muestra el método Empirical Transfer Function Estimate y vectores acumulados; Después, varias simulaciones de estimaciones halladas con canciones en la Sección 4. Por último se mencionan las conclusiones y trabajos futuros.

II. IDENTIFICACIÓN DE SISTEMAS

Para hallar la respuesta al impulso, en los análisis propuestos en [2] y [3], se asume que el resultado es una medición y por lo tanto no tiene en cuenta error de estimación. Por este motivo, y dado que el objetivo es encontrar una representación matemática (En este caso una convolución entre la respuesta al impulso y la entrada del sistema), se analiza la teoría de identificación de sistemas propuesta en [4] (Hallar modelos matemáticos de sistemas dinámicos basado en mediciones de la entrada y salida del sistema).

Antes de realizar un modelo matemático descriptivo, definimos un sistema dinámico como un objeto que tiene variables de diferentes clases que se relacionan dando como resultado diferentes señales observables.
Las variables que pueden ser manipuladas por el observador se conocen como entradas, mientras que las demás variables observables se conocen como salidas. Y aunque las señales pueden ser continuas o discretas, usualmente en mediciones y posterior procesamiento, todas señales son discretas, por lo tanto, después de un procesamiento de éstas los sistemas van a ser analizados como discretos.

Matemáticamente, en un sistema, la salida depende de la entrada del sistema y se puede representar por medio del esquema de la Fig.1. Donde n es el tiempo discreto, ƒ(u(n), ε(n)) es una función de la entrada del sistema u(n) y el error ε(n) y Yr(n) es el valor de la salida del sistema. ε(n) representa la influencia de otras variables diferentes a la entrada, como por ejemplo el ruido de fondo. Al ser desconcido su valor, entonces puede ser asumida como una variable aleatoria que depende del tiempo (osea un proceso estocástico).

Figura 1


Para poder definir cual es el operador f(u(n), ε(n)), basado en los datos medidos más no en modelos matemáticos clásicos, la metodología de identicación de sistemas propone realizar el siguiente procedimiento:

1) Medir los datos de entrada y salida del sistema: La entrada y salida del sistema deben ser medidas, cumpliendo un diseño de experimento que permita asegurar una gran cantidad de información. Dicho de otra forma, si se tienen 2 conjuntos diferentes de datos medidos, el resultado debe ser similar.

2) Elegir un conjunto de modelos: Dado que la función ƒ(u(n), ε(n)) puede ser un gran número de funciones, entonces se busca limitar las funciones objetivo con el fin de hacer viable encontrar el modelo matemático que represente mi sistema. Por ejemplo se puede limitar a sistemas lineales de respuesta al impulso finita, o de respuesta al impulso infinita.

3) Determinar el mejor modelo: Después de limitar los modelos matemáticos a un conjunto, se debe elegir sólo uno como la representación matemática del sistema. Para este paso, también deben ser elegidos los criterios que me denan el mejor y así se eligirá al modelo que cumpla con esos criterios. 

El diseño de experimento no es el objetivo de este artículo, de todas formas, en la Sección 4 se menciona el procedimiento que se siguió en este caso. 

La definición del conjunto de modelos matemáticos se hace a partir del conocimiento a priori. En el caso de la acústica, la mayoría de los fenómenos se pueden asumir lineales y sólo suele ser importante una entrada (sonido emitido) y una salida (sonido en el receptor). En este caso, ƒ(u(n), ε(n)) se asume de la siguiente manera (Ver Fig.2):

(1)

ecuacion1

figura2Donde h(k) es la respuesta al impulso estimada y * es el operador convolución. Asumir este conjunto de modelos puede llevar a aumentar el error y se da debido a las siguientes razones: el sistema en la realidad es continuo y en este caso se asume discreto; el sistema se asume lineal dado el conocimiento a priori, áunque no se está seguro de la linealidad; etc. Cómo se determina el modelo matemático y la influencia del error en la estimación es lo que se analiza con detalle en la siguiente sección.

iiI. EMPIRICAL TRANSFER FUNCTION ESTIMATE (ETFE) Y VECTORES ACUMULADOS

El método ETFE es uno de los más utilizados para la estimación de la respuesta al impulso en acústica. Está basado en el análisis de la relación de fase y amplitud de señales senosoidales cuando pasan por el sistema. Un completo análisis necesita que la señal de entrada tenga un gran número de componentes en frecuencia. El modelo que es elegido como representación del sistema, cumple con el siguiente criterio:

(2)

ecuacion2Donde Yr(ω) y U(ω) son la transformada discreta de Fourier de yr(n) y u(n) respectivamente, y H(ω) es la función de transferencia estimada. 


Acorde al Lema 6.1 en [4], ésta estimación es asintóticamente insesgada y su varianza es finita, propiedades que aseguran que la diferencia entre la función de transferencia real H(ω) y H(ω) disminuye cuando el número de datos aumenta, siempre y cuando, la salida del sistema se pueda escribir de la forma de la ecuación 1 y ε tenga varianza finita.

Como ha sido mencionado en este todo el artículo, la señal de entrada debe tener un contenido espectral muy amplio. Sin embargo, las actuales señales utilizadas, con este fin, son muy molestas para el oído humano. Por otro lado, una sola canción contiene un espectro amplio de frecuencias, como es mencionado en el análisis de la frecuencia de los instrumentos en [9], pero esta energía se encuentra distribuida en el tiempo. Por lo tanto, si se tiene una medición de un intervalo muy pequeño no se va a lograr aportar la información suficiente para una buena estimación.

Dependiendo del intervalo de medición, se puede obtener un resultado con el método ETFE; sin embargo, no siempre es posible dado el costo computacional. Para lograr utilizar una canción, sin tener que sumarle ninguna señal adicional, [8] propone utilizar los vectores acumulados que permite realizar la estimación ETFE, minimizando el costo computacional que requiere.

Los vectores acumulados consisten en medir una cantidad de datos de la entrada y salida formando los siguientes vectores:
(3)

ecuacion3

Donde uN y yN son los vectores formados por los datos de la entrada y salida respectivamente, y N es la cantidad de datos medida.

Luego, el vector de salida puede ser dividido en m vectores de longitud k tal que N = mk.
(4)

ecuacion4Después se suman los vectores para obtener un nuevo vector de salida. El procedimiento se repite con el vector de entrada del sistema y se obtienen los siguientes vectores acumulados:
(5)

ecuacion5De igual forma que la entrada y salida del sistema, estos dos vectores están relacionados por la respuesta al impulso como se muestra a continuación:
(6)

ecuacion6Donde εα,m es el vector acumulado del error,

matriz

y h es el vector de la respuesta al impulso.

Es importante notar que la forma propuesta para las matrices Th y Th es acorde al sistema solo si la respuesta al impulso es finita y el valor de k (ver de la ecuación 4) es mayor a su longitud. Por lo tanto, una de las restriciones adicionales es que se deben medir un gran número de datos, pero no puede ser acumulado a un vector de longitud menor al de la respuesta al impulso.

La relación entre los vectores yα,m y uα,m puede ser simplicada si la multiplicación Th · u(k,i-1), que es un error constante que no aumenta al incrementar el número de datos, se suma con εα, m generando un nuevo vector de error εT.

(7)

ecuacion7

Así, el sistema se reescribe a la forma:

(8)

ecuacion8

Dado que la multiplicación Th · ua,m es una convolución escrita en forma matricial, y de acuerdo al lema 6.1 en [4], cualquier sistema que tenga la relación matemática de la ecuación 8 puede ser estimado por el método ETFE, asumiendo que ua,m y ya,m son la entrada y salida del sistema respectivamente. Así, la estimación de la función de transferencia Ha,m(ω) es:

(9)ecuacion9

Donde, Ya,m(ω) y Ua,m(ω) son la transformada discreta de Fourier de los vectores ya,m y ua,m

Después, para cumplir el objetivo, obtener la respuesta al impulso, se aplica la operación inversa a la transformada de Fourier a la función de transferencia estimada.

(10) ecuacion10

 

(11) ecuacion11

De esta forma obtenemos una respuesta al impulso que nos va a representar el sistema acústico de un recinto.

IV. EJEMPLOS ESTIMACIÓN

Esta sección tiene como objeto poner a prueba la hipótesis de que es posible estimar la respuesta al impulso utilizando canciones como entrada al sistema. Para tal fin, se simula un sistema lineal y se muestran estimaciones realizadas con diferentes canciones como entrada del sistema. Estas estimaciones se comparan con otras hechas con ruido rosa en vez de canciones para obtener una referencia.

Para la simulación del sistema, se tomó una de las respuestas al impulso de la base de datos de dirac [10] (el canal izquierdo del archivo Small concert hall.wav). A la señal se le modificó la frecuencia de muestro a 44100Hz. Para obtener la salida, cada entrada deseada, sea ruido rosa o canción, fue convolucionada con la respuesta al impulso. Para evaluar la estimación y poderlas comparar se plantearon dos tipos de error.

1) El primero es la máxima diferencia entre cada posición de los vectores h y h.

(12) ecuacion12


2) El segundo es el promedio de la diferencia entre los vectores h y h.

(13) ecuacion13

La primera comparación se realizó con el método EFTE. Se tomaron dos canciones como posibles entradas, la canción 1 es Close to me de la agrupación The Cure y la canción 2 Links 2 3 4 de la agrupación Rammstein.

fig3

Los datos utilizados se toman a partir del segundo 15, así, se evalúa la estabilidad antes condiciones iniciales diferentes a cero. El número de datos corresponde a los segundos del eje x en las figuras 3 y 4.

La Fig.3 muestra el valor de emax a medida que se aumenta el número de datos usados en la estimación. Se puede observar que las estimaciones realizadas con ruido rosa, en la mayoría de los casos, son mucho menores que las realizadas con canciones. Sin embargo, en todos los casos las magnitudes emax para todos los estimadores son comparables. Es importante notar que el error en las estimaciones con canciones no converge como es esperado en la teoría, contrario a las realizadas con ruido rosa.

Del mismo modo, la Fig. 4 muestra la información que corresponde al valor de emean. En este caso, se muestra que varias de las estimaciones realizadas con canciones tienen menor error que las realizadas con ruido rosa, aunque tampoco muestra una convergencia, mientras que las realizadas con ruido rosa si convergen.

 fig4

Como consecuencia de las Figuras 3 y 4, se demuestra, que para el estimador ETFE, es viable utilizar una canción como señal de entrada al sistema, ya que el valor emean y emax en varios casos su valor fue menor haciendo una estimación con una canción en vez de ruido.

El mismo procedimiento anterior se realizó con el estimador de vectores acumulados con m = 2. El resultado es mostrado en las figuras 5 y 6.

Comparando con el resultado de la estimación por el método ETFE, no existe ninguna diferencia signicativa entre las figuras 3 y 5. Esto indica que los dos estimadores tienen una sensibilidad similar a la señal de entrada y cantidad de datos estimada en cuanto al valor de emax.

También se puede observar que las figuras 4 y 6 son muy similares. Armando así, que el valor de emean en cualquiera de los casos es comparable. Y como consecuencia, el método de vectores acumulados es viable utilizarlo con una canción como señal de entrada. 

fig5


Por último, en la Fig. 7 se muestra la influencia del ruido blanco de fondo en la estimación hecha con la canción 1 acorde al error emean. Como ruido de fondo se eligió el ruido blanco para asegurar energía en todas las frecuencias. La estimación se realizó por el método ETFE y con el número de datos correspondiente a 120 segundos de audio a la frecuencia de muestreo mencionada anteriormente. Como es de esperarse, a medida que se aumenta la relación señal a ruido, el error en la estimación va a disminuir. Sin embargo, no disminuye a cero sino que converge al valor de emean cuando es estimado sin sumar ruido de fondo.

Así se demuestra que la influencia del ruido de fondo en la estimación es mínima mientras se mantenga una relación señal a ruido.

V. CONCLUSIONES

figura6figura7Este documento muestra que, en la teoría y la práctica, estimar un sistema usando una canción como entrada al sistema es viable. La teoría de estimación indica que no es necesario utilizar una señal específica como entrada, sino solo cumplir con determinadas condiciones de energía en frecuencia. En la simulación se demuestra que una canción a la entrada del sistema obtiene errores similares a los de ruido rosa, e incluso, algunas estimaciones tienen mejores resultados.

Estos resultados son similares para los estimadores ETFE y vectores acumulados. Por otro lado, el ruido de fondo muestra convergencia al valor de error sin ruido cuando se aumenta la relación señal a ruido. También se mostró que el ruido rosa sí converge a medida que aumenta el número de datos, mientras que las canciones no, lo cual valida la estimación con ruido para conjuntos de datos bastante grandes, mientras que con los conjuntos de datos simulados es suficiente con una canción. De esta forma se plantea que se pueden usar canciones para estimar la respuesta al impulso de un recinto.

VI. TRABAJOS FUTUROS

En trabajos futuros, se pretende usar canciones como sonido emitido en recintos para obtener estimaciones de parámetros acústicos. Con este objetivo se busca utilizar métodos de identificación de sistemas paramétricos, que son menos sensibles al ruido de fondo y tienen mejores resultados. También es necesario encontrar la relación entre el error de estimación y los valores de los parámetros acústicos, con el fin de validar una determinada estimación. Y por último, es necesario disminuir la varianza del estimador, cuando se usa una canción como entrada.

REFERENCIAS
[1] F. of acoustics, “System Identication - Theory For the User”. John Wiley & Sons,Inc., 2 ed., 2004.
[2] ISO 3382, “Acoustics- measurement of room acoustic parameters”. International standard ISO 3382, 2009.
[3] ISO 18233, “Application of new measurementmethods in building and room acoustics”. International standard ISO 18233, 1997.
[4] L. Ljung, “System Identication - Theory for the User”. Upper Saddle River, N.J.: PTR Prentice Hall, 2 ed., 1999.
[5] S. M. Chaudhry and A. M. Chaudhr, “System identification of acoustic characteristics of enclosures with resonant second order dynamics,” Progress In Electromagnetics Research, vol. 61, pp. 89 – 110, 2006.
[6] J. Lardies, “Identication of a dynamical model for an acoustic enclosure using the wavelet transform,” Journal of Applied Acoustics, vol. 68, no. 4, pp. 473-490, 2007.
[7] Y. Huang, J. Benesty, and J. Chen, “Acoustic MIMO Signal Processing”. Springer, 1 ed., 2006.
[8] R. Quintana, F. Ruiz, and D. Patino, “Fast estimation of acoustic parameters in presence of audience,” Andescon, 2010 IEEE, 2010.
[9] L. Kirkegaard and T. Gulsrud, “In search of a new paradigm: how do our parameters and measurement techniques constrain approaches to concert hall design?,” ‘Acoustics today, vol. 7, Issue 1, pp. 7–14, 2007.
[10] A. Engineering, “Dirac - example of impulse response.”-http://www.acoustics-engineering.com/dirac/examples.htm, 2010.