Spotify utiliza redes neuronales convolucionales (CNN) para analizar los espectrogramas de las formas de onda de audio sin procesar y extraer 13 características medibles por pista, incluyendo tempo, energía, valencia, bailabilidad y tonalidad. Estas características impulsan Radio y Autoplay al encontrar vecinos sónicamente compatibles, y resuelven el problema de arranque en frío para nuevos artistas sin historial de reproducciones. Para Descubrimiento Semanal, el análisis de audio actúa como un factor de desempate cuando las pistas candidatas comparten puntuaciones similares de filtrado colaborativo.

Cómo funciona el análisis de audio en Spotify

Cuando una pista se sube a Spotify a través de un distribuidor, pasa por un proceso automatizado de análisis de audio. El sistema procesa la forma de onda sin procesar y extrae docenas de características medibles.

La tecnología central son las redes neuronales convolucionales (CNN), el mismo tipo de modelos de aprendizaje automático utilizados para el reconocimiento de imágenes. En lugar de analizar píxeles, las CNN de Spotify analizan espectrogramas, que son representaciones visuales de las frecuencias de sonido a lo largo del tiempo.

La CNN aprende a detectar patrones en estos espectrogramas: los ritmos de batería fuertes y los sintetizadores sugieren música electrónica o dance; los patrones de guitarra acústica suaves indican géneros folk o de cantautor; las estructuras armónicas complejas podrían señalar jazz o música clásica.

Las características de audio que extrae Spotify

La API de Spotify expone 13 características de audio para cada pista. Estos son los componentes básicos que utiliza el algoritmo para medir la similitud sónica.

Características de ritmo y tempo

Característica	Definición	Rango
`tempo`	Pulsaciones por minuto (BPM) estimadas	0-250
`time_signature`	Pulsos por compás (3/4, 4/4, etc.)	1-7
`danceability`	Qué tan adecuada es para bailar según el tempo, la estabilidad del ritmo y la fuerza del pulso	0.0-1.0

La danceability no es solo el tempo. Una pista de 120 BPM con ritmos irregulares obtiene una puntuación más baja que una pista de 100 BPM con un ritmo constante.

Características de energía e intensidad

Característica	Definición	Rango
`energy`	Medida perceptual de intensidad y actividad	0.0-1.0
`loudness`	Volumen general en decibelios (dB)	-60 a 0 dB

La energy combina múltiples señales: rango dinámico, volumen percibido, timbre, tasa de inicio (con qué frecuencia comienzan nuevos sonidos) y entropía general. El death metal obtiene una puntuación alta; un preludio de Bach obtiene una puntuación baja.

Características tonales

Característica	Definición	Rango
`key`	El centro tonal de la pista	0-11 (C=0, C#=1, etc.)
`mode`	Mayor (1) o menor (0)	0 o 1

Estas características ayudan al algoritmo a agrupar pistas con estructuras armónicas compatibles para transiciones fluidas en Radio y Autoplay.

Características de estado de ánimo y carácter

Característica	Definición	Rango
`valence`	Positividad musical (alegre frente a triste)	0.0-1.0
`acousticness`	Confianza de que la pista es acústica	0.0-1.0
`instrumentalness`	Predice si la pista no tiene voz	0.0-1.0
`speechiness`	Presencia de palabras habladas	0.0-1.0
`liveness`	Probabilidad de que la pista se haya interpretado en vivo	0.0-1.0

La valence es particularmente importante para las recomendaciones basadas en el estado de ánimo. Una pista con alta valencia (0.8+) suena alegre o eufórica. Una pista con baja valencia (0.2 o inferior) suena triste, melancólica o enojada.

Cómo influyen las características de audio en las recomendaciones

El análisis de audio resuelve el problema de arranque en frío. Cuando un nuevo artista sube su primera pista, no tiene historial de reproducciones ni datos de filtrado colaborativo. Pero las características de audio están disponibles de inmediato.

Así es como cada superficie algorítmica utiliza el análisis de audio:

Radio y Autoplay

Cuando Radio genera una cola basada en una pista semilla, la similitud de audio es la señal principal. El algoritmo encuentra pistas con similitudes en:

Tempo (dentro de un rango razonable para transiciones fluidas)
Nivel de energía (para mantener la intensidad de la sesión)
Tonalidad y modo (para compatibilidad armónica)
Valencia (para preservar el tono emocional)

Es por esto que una estación de Radio basada en una pista electrónica de alta energía no insertará repentinamente una balada acústica lenta, incluso si ambas canciones comparten etiquetas de género.

Descubrimiento Semanal

Discover Weekly utiliza principalmente filtrado colaborativo, pero el análisis de audio actúa como un criterio de desempate. Cuando varias pistas candidatas tienen puntuaciones de superposición de escucha similares, el algoritmo favorece aquellas con características de audio más cercanas a tu perfil de gusto actual.

Qué pueden aprender los artistas de las características de audio

No puedes controlar directamente cómo Spotify analiza tu audio, pero comprender estas características te ayuda a interpretar cómo el algoritmo percibe tu música.

Comprobar las características de audio de tu pista

Tip Las herramientas de terceros pueden extraer las características de audio de tu pista desde la API de Spotify. Busca servicios que te permitan ingresar una URL de pista de Spotify y devolver los valores de las características.

Qué buscar:

Características consistentes en todo tu catálogo ayudan al algoritmo a agrupar tu música. Si tus pistas varían drásticamente en energía, tempo y valencia, al algoritmo le resulta más difícil predecir quién las disfrutará.
Características que coincidan con tu público objetivo mejoran la ubicación en Radio. Si tu sonido es de alta energía y bailable, es más probable que tus pistas aparezcan en sesiones de Radio orientadas al ejercicio y a fiestas.

El problema de la introducción

El análisis de audio examina la pista completa, pero el comportamiento del oyente está fuertemente influenciado por los primeros 30 segundos. Si tu introducción tiene características diferentes al resto de la canción (una introducción ambiental tranquila antes de un drop fuerte), es posible que las características de audio no reflejen lo que los oyentes experimentan primero.

Esto puede crear un desajuste: el algoritmo recomienda tu pista basándose en la energía general, pero los oyentes la omiten porque la introducción no coincide con sus expectativas. Optimizar tu introducción es una habilidad separada de la optimización de tu perfil de audio general.

Limitaciones del análisis de audio

El análisis de audio es potente, pero tiene puntos ciegos:

Falta el contexto cultural. El algoritmo sabe que tu pista tiene mucha energía y un tempo de 128 BPM, pero no sabe que la letra hace referencia a un momento cultural específico o que el estilo de producción evoca una era particular.

Sonidos similares no son lo mismo que audiencias similares. Dos pistas pueden tener características de audio casi idénticas pero atraer a oyentes completamente diferentes. El análisis de audio encuentra vecinos sónicos, no vecinos de audiencia.

El género se infiere, no se declara. Spotify utiliza las etiquetas de género proporcionadas por tu distribuidor, pero el análisis de audio puede anularlas si las características sónicas no coinciden. Una pista etiquetada como "hip-hop" que suena como folk acústico puede terminar recomendada a oyentes de folk.

El papel del audio en el algoritmo general

El análisis de audio es una de las tres fuentes de datos principales que utiliza el algoritmo de Spotify:

Fuente de datos	Qué captura	Ideal para
Filtrado colaborativo	Patrones de escucha entre usuarios	Encontrar solapamiento de audiencia
Procesamiento de lenguaje natural	Letras, títulos de listas, menciones web	Entender el contexto cultural
Análisis de audio	Características sónicas de la forma de onda	Encontrar pistas sónicamente similares

Para artistas establecidos, el filtrado colaborativo domina. Para artistas nuevos, el análisis de audio tiene más peso porque no hay historial de escucha que analizar.

El objetivo es lanzar música con características de audio claras y consistentes mientras construyes una base de oyentes comprometidos. El análisis de audio te ayuda a ser descubierto; las señales de compromiso determinan si sigues siendo recomendado.