Cuando Spotify necesita encontrar pistas que suenen similares a lo que estás escuchando, no puede depender solo de etiquetas y metadatos. Analiza el audio sin procesar en sí.
Esta guía explica cómo Spotify extrae características de audio de los archivos de música, qué significan esas características y cómo influyen en dónde aparecen tus pistas en las listas de reproducción algorítmicas.
Cómo funciona el análisis de audio en Spotify
Cuando un distribuidor sube una pista a Spotify, esta pasa por un flujo de trabajo de análisis de audio automatizado. El sistema procesa la forma de onda sin procesar y extrae docenas de características medibles.
La tecnología central son las redes neuronales convolucionales (CNN), el mismo tipo de modelos de aprendizaje automático utilizados para el reconocimiento de imágenes. En lugar de analizar píxeles, las CNN de Spotify analizan espectrogramas, que son representaciones visuales de las frecuencias del sonido a lo largo del tiempo.
La CNN aprende a detectar patrones en estos espectrogramas: ritmos de batería fuertes y sintetizadores sugieren música electrónica o dance; patrones suaves de guitarra acústica indican géneros folk o cantautor; estructuras armónicas complejas podrían señalar jazz o música clásica.
Las características de audio que extrae Spotify
La API de Spotify expone 13 características de audio para cada pista. Estos son los componentes básicos que el algoritmo utiliza para medir la similitud sónica.
Características de ritmo y tempo
| Característica | Definición | Rango |
|---|---|---|
tempo | Pulsos por minuto (BPM) estimados | 0-250 |
time_signature | Pulsos por compás (3/4, 4/4, etc.) | 1-7 |
danceability | Qué tan apta para bailar según el tempo, estabilidad del ritmo, fuerza del pulso | 0.0-1.0 |
Danceability (Bailabilidad) no es solo el tempo. Una pista de 120 BPM con ritmos irregulares puntúa más bajo que una pista de 100 BPM con un groove constante.
Características de energía e intensidad
| Característica | Definición | Rango |
|---|---|---|
energy | Medida perceptual de intensidad y actividad | 0.0-1.0 |
loudness | Sonoridad general en decibelios (dB) | -60 a 0 dB |
Energy (Energía) combina múltiples señales: rango dinámico, sonoridad percibida, timbre, tasa de inicio (con qué frecuencia comienzan nuevos sonidos) y entropía general. El death metal puntúa alto; un preludio de Bach puntúa bajo.
Características tonales
| Característica | Definición | Rango |
|---|---|---|
key | El centro tonal de la pista | 0-11 (Do=0, Do#=1, etc.) |
mode | Mayor (1) o menor (0) | 0 o 1 |
Estas características ayudan al algoritmo a agrupar pistas con estructuras armónicas compatibles para transiciones fluidas en Radio y Autoplay.
Características de estado de ánimo y carácter
| Característica | Definición | Rango |
|---|---|---|
valence | Positividad musical (alegre vs triste) | 0.0-1.0 |
acousticness | Confianza en que la pista es acústica | 0.0-1.0 |
instrumentalness | Predice si la pista no tiene voz | 0.0-1.0 |
speechiness | Presencia de palabras habladas | 0.0-1.0 |
liveness | Probabilidad de que la pista se haya interpretado en vivo | 0.0-1.0 |
Valence (Valencia) es particularmente importante para las recomendaciones basadas en el estado de ánimo. Una pista de alta valencia (0.8+) suena alegre o eufórica. Una pista de baja valencia (0.2 o inferior) suena triste, melancólica o enfadada.
Cómo influyen las características de audio en las recomendaciones
El análisis de audio resuelve el problema del arranque en frío. Cuando un artista nuevo sube su primera pista, no tiene historial de escucha ni datos de filtrado colaborativo. Pero las características de audio están disponibles de inmediato.
Así es como cada superficie algorítmica utiliza el análisis de audio:
Radio y Autoplay
Cuando Radio genera una cola basada en una pista semilla, la similitud de audio es la señal principal. El algoritmo encuentra pistas con características similares:
- Tempo (dentro de un rango razonable para transiciones suaves)
- Nivel de energía (para mantener la intensidad de la sesión)
- Tonalidad y modo (para compatibilidad armónica)
- Valencia (para preservar el tono emocional)
Esta es la razón por la que una estación de Radio iniciada con una pista electrónica de alta energía no insertará repentinamente una balada acústica lenta, incluso si ambas canciones comparten etiquetas de género.
Descubrimiento Semanal
Descubrimiento Semanal utiliza principalmente el filtrado colaborativo, pero el análisis de audio actúa como desempate. Cuando varias pistas candidatas tienen puntuaciones de superposición de escucha similares, el algoritmo favorece aquellas con características de audio más cercanas a tu perfil de gusto existente.
Daylist
Daylist utiliza características de audio para hacer coincidir los niveles de energía con la hora del día. Las pistas de alta energía se agrupan en listas de reproducción para entrenar; las pistas de baja energía y alta acústica aparecen en mezclas para relajarse por la noche.
Limitaciones del análisis de audio
El análisis de audio es potente, pero tiene puntos ciegos:
Falta el contexto cultural. El algoritmo sabe que tu pista tiene alta energía y un tempo de 128 BPM, pero no sabe que la letra hace referencia a un momento cultural específico o que el estilo de producción evoca una era en particular.
Sonidos similares no son lo mismo que audiencias similares. Dos pistas pueden tener características de audio casi idénticas pero atraer a oyentes completamente diferentes. El análisis de audio encuentra vecinos sónicos, no vecinos de audiencia.
El género se infiere, no se declara. Spotify utiliza las etiquetas de género proporcionadas por tu distribuidor, pero el análisis de audio puede anularlas si las características sónicas no coinciden. Una pista etiquetada como "hip-hop" que suena a folk acústico puede recomendarse a oyentes de folk en su lugar.
El papel del audio en el algoritmo general
El análisis de audio es una de las tres fuentes de datos principales que utiliza el algoritmo de Spotify:
| Fuente de datos | Lo que captura | Mejor para |
|---|---|---|
| Filtrado colaborativo | Patrones de escucha entre usuarios | Encontrar superposición de audiencia |
