Cómo funciona el análisis de audio en Spotify
Cuando una pista se sube a Spotify a través de un distribuidor, pasa por un proceso automatizado de análisis de audio. El sistema procesa la forma de onda sin procesar y extrae docenas de características medibles.
La tecnología central son las redes neuronales convolucionales (CNN), el mismo tipo de modelos de aprendizaje automático utilizados para el reconocimiento de imágenes. En lugar de analizar píxeles, las CNN de Spotify analizan espectrogramas, que son representaciones visuales de las frecuencias de sonido a lo largo del tiempo.
La CNN aprende a detectar patrones en estos espectrogramas: los ritmos de batería fuertes y los sintetizadores sugieren música electrónica o dance; los patrones de guitarra acústica suaves indican géneros folk o de cantautor; las estructuras armónicas complejas podrían señalar jazz o música clásica.
Las características de audio que extrae Spotify
La API de Spotify expone 13 características de audio para cada pista. Estos son los componentes básicos que utiliza el algoritmo para medir la similitud sónica.
Características de ritmo y tempo
| Característica | Definición | Rango |
|---|---|---|
tempo |
Pulsaciones por minuto (BPM) estimadas | 0-250 |
time_signature |
Pulsos por compás (3/4, 4/4, etc.) | 1-7 |
danceability |
Qué tan adecuada es para bailar según el tempo, la estabilidad del ritmo y la fuerza del pulso | 0.0-1.0 |
La danceability no es solo el tempo. Una pista de 120 BPM con ritmos irregulares obtiene una puntuación más baja que una pista de 100 BPM con un ritmo constante.
Características de energía e intensidad
| Característica | Definición | Rango |
|---|---|---|
energy |
Medida perceptual de intensidad y actividad | 0.0-1.0 |
loudness |
Volumen general en decibelios (dB) | -60 a 0 dB |
La energy combina múltiples señales: rango dinámico, volumen percibido, timbre, tasa de inicio (con qué frecuencia comienzan nuevos sonidos) y entropía general. El death metal obtiene una puntuación alta; un preludio de Bach obtiene una puntuación baja.
Características tonales
| Característica | Definición | Rango |
|---|---|---|
key |
El centro tonal de la pista | 0-11 (C=0, C#=1, etc.) |
mode |
Mayor (1) o menor (0) | 0 o 1 |
Estas características ayudan al algoritmo a agrupar pistas con estructuras armónicas compatibles para transiciones fluidas en Radio y Autoplay.
Características de estado de ánimo y carácter
| Característica | Definición | Rango |
|---|---|---|
valence |
Positividad musical (alegre frente a triste) | 0.0-1.0 |
acousticness |
Confianza de que la pista es acústica | 0.0-1.0 |
instrumentalness |
Predice si la pista no tiene voz | 0.0-1.0 |
speechiness |
Presencia de palabras habladas | 0.0-1.0 |
liveness |
Probabilidad de que la pista se haya interpretado en vivo | 0.0-1.0 |
La valence es particularmente importante para las recomendaciones basadas en el estado de ánimo. Una pista con alta valencia (0.8+) suena alegre o eufórica. Una pista con baja valencia (0.2 o inferior) suena triste, melancólica o enojada.
Cómo influyen las características de audio en las recomendaciones
El análisis de audio resuelve el problema de arranque en frío. Cuando un nuevo artista sube su primera pista, no tiene historial de reproducciones ni datos de filtrado colaborativo. Pero las características de audio están disponibles de inmediato.
Así es como cada superficie algorítmica utiliza el análisis de audio:
Radio y Autoplay
Cuando Radio genera una cola basada en una pista semilla, la similitud de audio es la señal principal. El algoritmo encuentra pistas con similitudes en:
- Tempo (dentro de un rango razonable para transiciones fluidas)
- Nivel de energía (para mantener la intensidad de la sesión)
- Tonalidad y modo (para compatibilidad armónica)
- Valencia (para preservar el tono emocional)
Es por esto que una estación de Radio basada en una pista electrónica de alta energía no insertará repentinamente una balada acústica lenta, incluso si ambas canciones comparten etiquetas de género.
Descubrimiento Semanal
Discover Weekly utiliza principalmente filtrado colaborativo, pero el análisis de audio actúa como un criterio de desempate. Cuando varias pistas candidatas tienen puntuaciones de superposición de escucha similares, el algoritmo favorece aquellas con características de audio más cercanas a tu perfil de gusto actual.
Qué pueden aprender los artistas de las características de audio
No puedes controlar directamente cómo Spotify analiza tu audio, pero comprender estas características te ayuda a interpretar cómo el algoritmo percibe tu música.
Comprobar las características de audio de tu pista
Tip Las herramientas de terceros pueden extraer las características de audio de tu pista desde la API de Spotify. Busca servicios que te permitan ingresar una URL de pista de Spotify y devolver los valores de las características.
Qué buscar:
- Características consistentes en todo tu catálogo ayudan al algoritmo a agrupar tu música. Si tus pistas varían drásticamente en energía, tempo y valencia, al algoritmo le resulta más difícil predecir quién las disfrutará.
- Características que coincidan con tu público objetivo mejoran la ubicación en Radio. Si tu sonido es de alta energía y bailable, es más probable que tus pistas aparezcan en sesiones de Radio orientadas al ejercicio y a fiestas.
El problema de la introducción
El análisis de audio examina la pista completa, pero el comportamiento del oyente está fuertemente influenciado por los primeros 30 segundos. Si tu introducción tiene características diferentes al resto de la canción (una introducción ambiental tranquila antes de un drop fuerte), es posible que las características de audio no reflejen lo que los oyentes experimentan primero.
Esto puede crear un desajuste: el algoritmo recomienda tu pista basándose en la energía general, pero los oyentes la omiten porque la introducción no coincide con sus expectativas. Optimizar tu introducción es una habilidad separada de la optimización de tu perfil de audio general.
Limitaciones del análisis de audio
El análisis de audio es potente, pero tiene puntos ciegos:
Falta el contexto cultural. El algoritmo sabe que tu pista tiene mucha energía y un tempo de 128 BPM, pero no sabe que la letra hace referencia a un momento cultural específico o que el estilo de producción evoca una era particular.
Sonidos similares no son lo mismo que audiencias similares. Dos pistas pueden tener características de audio casi idénticas pero atraer a oyentes completamente diferentes. El análisis de audio encuentra vecinos sónicos, no vecinos de audiencia.
El género se infiere, no se declara. Spotify utiliza las etiquetas de género proporcionadas por tu distribuidor, pero el análisis de audio puede anularlas si las características sónicas no coinciden. Una pista etiquetada como "hip-hop" que suena como folk acústico puede terminar recomendada a oyentes de folk.
El papel del audio en el algoritmo general
El análisis de audio es una de las tres fuentes de datos principales que utiliza el algoritmo de Spotify:
| Fuente de datos | Qué captura | Ideal para |
|---|---|---|
| Filtrado colaborativo | Patrones de escucha entre usuarios | Encontrar solapamiento de audiencia |
| Procesamiento de lenguaje natural | Letras, títulos de listas, menciones web | Entender el contexto cultural |
| Análisis de audio | Características sónicas de la forma de onda | Encontrar pistas sónicamente similares |
Para artistas establecidos, el filtrado colaborativo domina. Para artistas nuevos, el análisis de audio tiene más peso porque no hay historial de escucha que analizar.
El objetivo es lanzar música con características de audio claras y consistentes mientras construyes una base de oyentes comprometidos. El análisis de audio te ayuda a ser descubierto; las señales de compromiso determinan si sigues siendo recomendado.