Analyse Audio Spotify : CNN pour la Radio et l'Autoplay

Spotify utilise des réseaux neuronaux convolutifs pour extraire des caractéristiques audio des formes d'onde brutes. Ces caractéristiques alimentent la Radio, l'Autoplay et les recommandations de similarité sonore.

How-to Guide
7 min read
A paper craft diorama showing a sound wave entering a machine and becoming data dials for energy and valence.

Lorsque Spotify doit trouver des morceaux qui ressemblent à ce que vous écoutez, il ne peut pas se fier uniquement aux balises et aux métadonnées. Il analyse l'audio brut lui-même.

Ce guide explique comment Spotify extrait les caractéristiques audio des fichiers musicaux, ce que signifient ces caractéristiques et comment elles influencent l'endroit où vos morceaux apparaissent dans les playlists algorithmiques.

Comment fonctionne l'analyse audio sur Spotify

Lorsqu'un morceau est téléchargé sur Spotify via un distributeur, il passe par un pipeline d'analyse audio automatisé. Le système traite la forme d'onde brute et extrait des dizaines de caractéristiques mesurables.

La technologie de base est le réseau neuronal convolutif (CNN), le même type de modèle d'apprentissage automatique utilisé pour la reconnaissance d'images. Au lieu d'analyser des pixels, les CNN de Spotify analysent des spectrogrammes, qui sont des représentations visuelles des fréquences sonores au fil du temps.

Le CNN apprend à détecter des motifs dans ces spectrogrammes : des rythmes de batterie et des synthétiseurs puissants suggèrent de la musique électronique ou dance ; des motifs de guitare acoustique doux indiquent des genres folk ou auteur-compositeur-interprète ; des structures harmoniques complexes pourraient signaler du jazz ou du classique.

Les caractéristiques audio extraites par Spotify

L'API de Spotify expose 13 caractéristiques audio pour chaque morceau. Ce sont les blocs de construction que l'algorithme utilise pour mesurer la similarité sonore.

Caractéristiques de rythme et tempo

Caractéristique Définition Plage
tempo Battements par minute (BPM) estimés 0-250
time_signature Battements par mesure (3/4, 4/4, etc.) 1-7
danceability À quel point il est adapté à la danse, basé sur le tempo, la stabilité du rythme, la force des battements 0.0-1.0

La Danceability n'est pas seulement une question de tempo. Un morceau à 120 BPM avec des rythmes irréguliers obtiendra un score inférieur à un morceau à 100 BPM avec un groove stable.

Caractéristiques d'énergie et d'intensité

Caractéristique Définition Plage
energy Mesure perceptive de l'intensité et de l'activité 0.0-1.0
loudness Volume global en décibels (dB) -60 à 0 dB

L'Energy combine plusieurs signaux : plage dynamique, volume perçu, timbre, taux d'apparition (fréquence des nouveaux sons) et entropie globale. Le death metal obtient un score élevé ; une prélude de Bach obtient un score faible.

Caractéristiques tonales

Caractéristique Définition Plage
key Le centre tonal du morceau 0-11 (Do=0, Do#=1, etc.)
mode Majeur (1) ou mineur (0) 0 ou 1

Ces caractéristiques aident l'algorithme à regrouper les morceaux ayant des structures harmoniques compatibles pour des transitions fluides dans la Radio et l'Autoplay.

Caractéristiques d'ambiance et de caractère

Caractéristique Définition Plage
valence Positivité musicale (joyeux vs triste) 0.0-1.0
acousticness Confiance que le morceau est acoustique 0.0-1.0
instrumentalness Prédit si le morceau n'a pas de voix 0.0-1.0
speechiness Présence de paroles prononcées 0.0-1.0
liveness Probabilité que le morceau ait été joué en direct 0.0-1.0

La Valence est particulièrement importante pour les recommandations basées sur l'humeur. Un morceau à valence élevée (0,8+) sonne joyeux ou euphorique. Un morceau à faible valence (0,2 ou moins) sonne triste, mélancolique ou en colère.

Comment les caractéristiques audio influencent les recommandations

L'analyse audio résout le problème du démarrage à froid. Lorsqu'un nouvel artiste télécharge son premier morceau, il n'a aucun historique d'écoute ni données de filtrage collaboratif. Mais les caractéristiques audio sont disponibles immédiatement.

Voici comment chaque surface algorithmique utilise l'analyse audio :

Radio et Autoplay

Lorsque la Radio génère une file d'attente basée sur un morceau de départ, la similarité audio est le signal principal. L'algorithme trouve des morceaux avec des caractéristiques similaires :

  • Tempo (dans une plage raisonnable pour des transitions fluides)
  • Niveau d'énergie (pour maintenir l'intensité de la session)
  • Tonalité et mode (pour la compatibilité harmonique)
  • Valence (pour préserver le ton émotionnel)

C'est pourquoi une station Radio initiée par un morceau électronique à haute énergie n'insérera pas soudainement une ballade acoustique lente, même si les deux chansons partagent des balises de genre.

Discover Weekly

Discover Weekly utilise principalement le filtrage collaboratif, mais l'analyse audio sert de critère de départage. Lorsque plusieurs morceaux candidats ont des scores de chevauchement d'écoute similaires, l'algorithme privilégie ceux dont les caractéristiques audio sont les plus proches de votre profil de goût existant.

Ce que les artistes peuvent apprendre des caractéristiques audio

Vous ne pouvez pas contrôler directement la manière dont Spotify analyse votre audio, mais comprendre ces caractéristiques vous aide à interpréter comment l'algorithme perçoit votre musique.

Vérifier les caractéristiques audio de votre morceau

Tip Des outils tiers peuvent extraire les caractéristiques audio de votre morceau depuis l'API de Spotify. Recherchez des services qui vous permettent de saisir une URL de morceau Spotify et de renvoyer les valeurs des caractéristiques.

Ce qu'il faut rechercher :

  • Des caractéristiques cohérentes dans tout votre catalogue aident l'algorithme à regrouper votre musique. Si vos morceaux varient considérablement en énergie, tempo et valence, l'algorithme aura plus de mal à prédire qui les appréciera.
  • Des caractéristiques qui correspondent à votre public cible améliorent le placement dans la Radio. Si votre son est énergique et dansant, vos morceaux sont plus susceptibles d'apparaître dans les sessions Radio axées sur l'entraînement ou les fêtes.

Le problème de l'introduction

L'analyse audio examine le morceau entier, mais le comportement de l'auditeur est fortement influencé par les 30 premières secondes. Si votre introduction présente des caractéristiques différentes du reste de la chanson (une introduction ambiante calme avant une montée en puissance forte), les caractéristiques audio peuvent ne pas refléter ce que les auditeurs vivent en premier.

Cela peut créer une inadéquation : l'algorithme recommande votre morceau en fonction de l'énergie globale, mais les auditeurs l'ignorent parce que l'introduction ne correspond pas à leurs attentes. Optimiser votre introduction est une compétence distincte de l'optimisation de votre profil audio global.

Limites de l'analyse audio

L'analyse audio est puissante, mais elle a des angles morts :

Le contexte culturel est absent. L'algorithme connaît le tempo et l'énergie élevée de votre morceau, mais il ne sait pas que les paroles font référence à un moment culturel spécifique ou que le style de production évoque une ère particulière.

Des sons similaires ne sont pas des publics similaires. Deux morceaux peuvent avoir des caractéristiques audio presque identiques mais plaire à des auditeurs complètement différents. L'analyse audio trouve des voisins sonores, pas des voisins d'audience.

Le genre est inféré, pas déclaré. Spotify utilise les balises de genre fournies par votre distributeur, mais l'analyse audio peut les remplacer si les caractéristiques sonores ne correspondent pas. Un morceau étiqueté « hip-hop » qui sonne comme de la folk acoustique peut être recommandé à des auditeurs de folk à la place.

Le rôle de l'audio dans l'algorithme général

L'analyse audio est l'une des trois principales sources de données utilisées par l'algorithme Spotify :

Source de données Ce qu'elle capture Idéal pour
Filtrage collaboratif Modèles d'écoute entre utilisateurs Trouver le chevauchement d'audience
Traitement du langage naturel Paroles, titres de playlists, mentions sur le web Comprendre le contexte culturel
Analyse audio Caractéristiques sonores de la forme d'onde Trouver des morceaux soniquement similaires

Pour les artistes établis, le filtrage collaboratif domine. Pour les nouveaux artistes, l'analyse audio a plus de poids car il n'y a pas d'historique d'écoute à analyser.

L'objectif est de sortir de la musique avec des caractéristiques audio claires et cohérentes tout en bâtissant une base d'auditeurs engagés. L'analyse audio vous fait découvrir ; les signaux d'engagement déterminent si vous continuez à être recommandé.