Los investigadores de IA4Birds crean un novedoso modelo para la clasificación de audio mediante inteligencia artificial

A lo largo de los últimos meses, el proyecto IA4Birds ha logrado avances destacados en el desarrollo de sistemas de inteligencia artificial enfocados en la protección y monitorización de aves, consolidándose como una iniciativa pionera en el ámbito de la conservación y el estudio de la biodiversidad mediante tecnologías avanzadas.

Como resultado de este progreso, se ha logrado crear un modelo para la clasificación de audio a través de una arquitectura innovadora para el reconocimiento automático de sonidos, específicamente orientada a la identificación de especies de aves. Esta nueva arquitectura abandona la tradicional metodología basada en la transformación de audio en imágenes mediante espectrogramas, implementando un enfoque completamente end-to-end. Este enfoque utiliza capas de convolución unidimensional (CNN 1D) junto con mecanismos basados en transformers, lo que permite extraer características relevantes directamente desde la señal de audio cruda, eliminando la necesidad de realizar preprocesamientos complejos.

Audio

Este avance presenta múltiples beneficios técnicos, entre los que destaca una notable reducción en los tiempos de inferencia y en el consumo computacional. Concretamente, esta arquitectura logra reducir hasta un 71% el tiempo necesario para clasificar las señales de audio respecto a métodos basados en espectrogramas, y también disminuye en más del 25% el número total de operaciones lógicas requeridas durante el proceso. Estas características son especialmente importantes para la implementación en dispositivos de bajo consumo energético (edge computing), ampliamente utilizados en estudios ecológicos y conservación.

Además, el modelo propuesto demuestra una mayor robustez en escenarios con conjuntos de datos limitados o altamente desbalanceados, circunstancias frecuentes en estudios de campo con aves silvestres. El rendimiento medido en términos del F1-score muestra mejoras significativas de hasta un 4,6% en comparación con los métodos tradicionales basados en procesamiento espectral.