Análisis de Audio de Spotify: CNNs para Radio y Reproducción Automática

Spotify utiliza redes neuronales convolucionales para extraer características de audio de las formas de onda sin procesar. Estas características impulsan la Radio, la Reproducción Automática y las recomendaciones de similitud sónica.

How-to Guide
7 min read
A paper craft diorama showing a sound wave entering a machine and becoming data dials for energy and valence.

Cuando Spotify necesita encontrar pistas que suenen similares a lo que estás escuchando, no puede depender solo de etiquetas y metadatos. Analiza el audio sin procesar en sí.

Esta guía explica cómo Spotify extrae características de audio de los archivos de música, qué significan esas características y cómo influyen en dónde aparecen tus pistas en las listas de reproducción algorítmicas.

Cómo funciona el análisis de audio en Spotify

Cuando un distribuidor sube una pista a Spotify, esta pasa por un proceso automatizado de análisis de audio. El sistema procesa la forma de onda sin procesar y extrae docenas de características medibles.

La tecnología central son las redes neuronales convolucionales (CNNs), el mismo tipo de modelos de aprendizaje automático utilizados para el reconocimiento de imágenes. En lugar de analizar píxeles, las CNNs de Spotify analizan espectrogramas, que son representaciones visuales de las frecuencias de sonido a lo largo del tiempo.

La CNN aprende a detectar patrones en estos espectrogramas: ritmos de batería y sintetizadores fuertes sugieren música electrónica o dance; patrones de guitarra acústica suaves indican géneros folk o cantautor; estructuras armónicas complejas podrían señalar jazz o clásica.

Las características de audio que extrae Spotify

La API de Spotify expone 13 características de audio para cada pista. Estos son los componentes básicos que el algoritmo utiliza para medir la similitud sónica.

Características de ritmo y tempo

Característica Definición Rango
tempo Pulsos por minuto (BPM) estimados 0-250
time_signature Pulsos por compás (3/4, 4/4, etc.) 1-7
danceability Qué tan adecuada para bailar según el tempo, estabilidad del ritmo, fuerza del pulso 0.0-1.0

Danceability no es solo el tempo. Una pista de 120 BPM con ritmos irregulares puntúa más bajo que una pista de 100 BPM con un ritmo constante.

Características de energía e intensidad

Característica Definición Rango
energy Medida perceptiva de intensidad y actividad 0.0-1.0
loudness Sonoridad general en decibelios (dB) -60 a 0 dB

Energy combina varias señales: rango dinámico, sonoridad percibida, timbre, tasa de inicio (frecuencia con la que comienzan nuevos sonidos) y entropía general. El death metal puntúa alto; un preludio de Bach puntúa bajo.

Características tonales

Característica Definición Rango
key El centro tonal de la pista 0-11 (Do=0, Do#=1, etc.)
mode Mayor (1) o menor (0) 0 o 1

Estas características ayudan al algoritmo a agrupar pistas con estructuras armónicas compatibles para transiciones fluidas en Radio y Reproducción Automática.

Características de estado de ánimo y carácter

Característica Definición Rango
valence Positividad musical (alegre vs triste) 0.0-1.0
acousticness Confianza en que la pista es acústica 0.0-1.0
instrumentalness Predice si la pista no tiene voces 0.0-1.0
speechiness Presencia de palabras habladas 0.0-1.0
liveness Probabilidad de que la pista se haya interpretado en vivo 0.0-1.0

Valence es particularmente importante para las recomendaciones basadas en el estado de ánimo. Una pista de alta valencia (0.8+) suena alegre o eufórica. Una pista de baja valencia (0.2 o menos) suena triste, melancólica o enfadada.

Cómo influyen las características de audio en las recomendaciones

El análisis de audio resuelve el problema del arranque en frío (cold start problem). Cuando un artista nuevo sube su primera pista, no tiene historial de escucha ni datos de filtrado colaborativo. Pero las características de audio están disponibles de inmediato.

Así es como cada superficie algorítmica utiliza el análisis de audio:

Radio y Reproducción Automática

Cuando Radio genera una cola basada en una pista semilla, la similitud de audio es la señal principal. El algoritmo busca pistas con el mismo:

  • Tempo (dentro de un rango razonable para transiciones suaves)
  • Nivel de energía (para mantener la intensidad de la sesión)
  • Tonalidad y modo (para compatibilidad armónica)
  • Valencia (para preservar el tono emocional)

Esta es la razón por la cual una estación de Radio iniciada con una pista electrónica de alta energía no insertará repentinamente una balada acústica lenta, incluso si ambas canciones comparten etiquetas de género.

Descubrimiento Semanal

Descubrimiento Semanal utiliza principalmente el filtrado colaborativo, pero el análisis de audio actúa como desempate. Cuando varias pistas candidatas tienen puntuaciones de superposición de escucha similares, el algoritmo favorece aquellas con características de audio más cercanas a tu perfil de gusto existente.

Lo que los artistas pueden aprender de las características de audio

No puedes controlar directamente cómo Spotify analiza tu audio, pero comprender estas características te ayuda a interpretar cómo el algoritmo percibe tu música.

Revisar las características de audio de tu pista

Tip Herramientas de terceros pueden extraer las características de audio de tu pista de la API de Spotify. Busca servicios que te permitan introducir una URL de pista de Spotify y devuelvan los valores de las características.

Qué buscar:

  • Características consistentes en todo tu catálogo ayudan al algoritmo a agrupar tu música. Si tus pistas varían mucho en energía, tempo y valencia, al algoritmo le resulta más difícil predecir a quién le gustarán.
  • Características que coinciden con tu público objetivo mejoran la colocación en Radio. Si tu sonido es de alta energía y bailable, es más probable que tus pistas aparezcan en sesiones de Radio orientadas a entrenamientos y fiestas.

El problema de la introducción

El análisis de audio examina la pista completa, pero el comportamiento del oyente está fuertemente influenciado por los primeros 30 segundos. Si tu introducción tiene características diferentes al resto de la canción (una introducción ambiental tranquila antes de un drop fuerte), las características de audio pueden no reflejar lo que los oyentes experimentan primero.

Esto puede crear una discrepancia: el algoritmo recomienda tu pista basándose en la energía general, pero los oyentes la omiten porque la introducción no cumple con sus expectativas. Optimizar tu introducción es una habilidad separada de optimizar tu perfil de audio general.

Limitaciones del análisis de audio

El análisis de audio es potente, pero tiene puntos ciegos:

Falta el contexto cultural. El algoritmo sabe que tu pista tiene alta energía y un tempo de 128 BPM, pero no sabe que la letra hace referencia a un momento cultural específico o que el estilo de producción evoca una era particular.

Sonidos similares no son lo mismo que audiencias similares. Dos pistas pueden tener características de audio casi idénticas pero atraer a oyentes completamente diferentes. El análisis de audio encuentra vecinos sónicos, no vecinos de audiencia.

El género se infiere, no se declara. Spotify utiliza las etiquetas de género proporcionadas por tu distribuidor, pero el análisis de audio puede anularlas si las características sónicas no coinciden. Una pista etiquetada como "hip-hop" que suena a folk acústico puede ser recomendada a oyentes de folk en su lugar.

El papel del audio en el algoritmo general

El análisis de audio es una de las tres fuentes principales de datos que utiliza el algoritmo de Spotify:

Fuente de datos Qué captura Mejor para
Filtrado colaborativo Patrones de escucha entre usuarios Encontrar superposición de audiencia
Procesamiento de lenguaje natural Letras, títulos de listas de reproducción, menciones web Comprender el contexto cultural
Análisis de audio Características sónicas de la forma de onda Encontrar pistas sónicamente similares

Para artistas establecidos, el filtrado colaborativo domina. Para artistas nuevos, el análisis de audio tiene más peso porque no hay historial de escucha que analizar.

El objetivo es lanzar música con características de audio claras y consistentes mientras se construye una base de oyentes comprometidos. El análisis de audio te ayuda a ser descubierto; las señales de participación determinan si sigues siendo recomendado.