Lorsque Spotify doit trouver des morceaux qui sonnent de manière similaire à ce que vous écoutez, il ne peut pas se fier uniquement aux balises et aux métadonnées. Il analyse l'audio brut lui-même.
Ce guide explique comment Spotify extrait les caractéristiques audio des fichiers musicaux, ce que signifient ces caractéristiques et comment elles influencent l'endroit où vos morceaux apparaissent dans les playlists algorithmiques.
Comment fonctionne l'analyse audio chez Spotify
Lorsqu'un morceau est mis en ligne sur Spotify via un distributeur, il passe par un pipeline d'analyse audio automatisé. Le système traite la forme d'onde brute et extrait des dizaines de caractéristiques mesurables.
La technologie de base est les réseaux neuronaux convolutifs (CNN), le même type de modèles d'apprentissage automatique utilisés pour la reconnaissance d'images. Au lieu d'analyser des pixels, les CNN de Spotify analysent des spectrogrammes, qui sont des représentations visuelles des fréquences sonores au fil du temps.
Le CNN apprend à détecter des motifs dans ces spectrogrammes : des rythmes de batterie et des synthétiseurs puissants suggèrent une musique électronique ou de danse ; des motifs de guitare acoustique doux indiquent des genres folk ou auteur-compositeur-interprète ; des structures harmoniques complexes pourraient signaler du jazz ou de la musique classique.
Les caractéristiques audio extraites par Spotify
L'API de Spotify expose 13 caractéristiques audio pour chaque morceau. Ce sont les éléments constitutifs que l'algorithme utilise pour mesurer la similarité sonore.
Caractéristiques de rythme et de tempo
| Caractéristique | Définition | Plage |
|---|---|---|
tempo | Battements par minute (BPM) estimés | 0-250 |
time_signature | Battements par mesure (3/4, 4/4, etc.) | 1-7 |
danceability | Niveau de correspondance à la danse basé sur le tempo, la stabilité du rythme, la force des battements | 0.0-1.0 |
La Danceability n'est pas seulement une question de tempo. Un morceau à 120 BPM avec des rythmes irréguliers obtient un score inférieur à un morceau à 100 BPM avec un groove régulier.
Caractéristiques d'énergie et d'intensité
| Caractéristique | Définition | Plage |
|---|---|---|
energy | Mesure perceptive de l'intensité et de l'activité | 0.0-1.0 |
loudness | Volume global en décibels (dB) | -60 à 0 dB |
L'Energy combine plusieurs signaux : la plage dynamique, le volume perçu, le timbre, le taux d'apparition (fréquence des nouveaux sons) et l'entropie globale. Le death metal obtient un score élevé ; une prélude de Bach obtient un score faible.
Caractéristiques tonales
| Caractéristique | Définition | Plage |
|---|---|---|
key | Le centre tonal du morceau | 0-11 (Do=0, Do#=1, etc.) |
mode | Majeur (1) ou mineur (0) | 0 ou 1 |
Ces caractéristiques aident l'algorithme à regrouper les morceaux ayant des structures harmoniques compatibles pour des transitions fluides dans la Radio et la Lecture automatique.
Caractéristiques d'humeur et de caractère
| Caractéristique | Définition | Plage |
|---|---|---|
valence | Positivité musicale (joyeux vs triste) | 0.0-1.0 |
acousticness | Confiance que le morceau est acoustique | 0.0-1.0 |
instrumentalness | Prédit si le morceau ne contient pas de voix | 0.0-1.0 |
speechiness | Présence de paroles prononcées | 0.0-1.0 |
liveness | Probabilité que le morceau ait été joué en direct | 0.0-1.0 |
La Valence est particulièrement importante pour les recommandations basées sur l'humeur. Un morceau à haute valence (0,8+) semble joyeux ou euphorique. Un morceau à faible valence (0,2 ou moins) semble triste, mélancolique ou en colère.
Comment les caractéristiques audio influencent les recommandations
L'analyse audio résout le problème du démarrage à froid. Lorsqu'un nouvel artiste met en ligne son premier morceau, il n'a pas d'historique d'écoute ni de données de filtrage collaboratif. Mais les caractéristiques audio sont disponibles immédiatement.
Voici comment chaque surface algorithmique utilise l'analyse audio :
Radio et Lecture automatique
Lorsque la Radio génère une file d'attente basée sur un morceau d'amorce, la similarité audio est le signal principal. L'algorithme trouve des morceaux avec des caractéristiques similaires :
- Tempo (dans une plage raisonnable pour des transitions fluides)
- Niveau d'énergie (pour maintenir l'intensité de la session)
- Tonalité et mode (pour la compatibilité harmonique)
- Valence (pour préserver le ton émotionnel)
C'est pourquoi une station Radio amorcée par un morceau électronique à haute énergie n'insérera pas soudainement une ballade acoustique lente, même si les deux chansons partagent des étiquettes de genre.
Découvertes de la semaine
Découvertes de la semaine utilise principalement le filtrage collaboratif, mais l'analyse audio sert de facteur de départage. Lorsque plusieurs morceaux candidats ont des scores de chevauchement d'écoute similaires, l'algorithme privilégie ceux dont les caractéristiques audio sont les plus proches de votre profil de goût existant.
Daylist
Daylist utilise les caractéristiques audio pour faire correspondre les niveaux d'énergie à l'heure de la journée. Les morceaux à haute énergie se regroupent dans les playlists d'entraînement ; les morceaux à faible énergie et à haute acousticité apparaissent dans les mix de détente en soirée.
Ce que les artistes peuvent apprendre des caractéristiques audio
Vous ne pouvez pas contrôler directement la manière dont Spotify analyse votre audio, mais comprendre ces caractéristiques vous aide à interpréter la façon dont l'algorithme perçoit votre musique.
Vérification des caractéristiques audio de votre morceau
Des outils tiers peuvent extraire les caractéristiques audio de votre morceau à partir de l'API de Spotify. Recherchez des services qui vous permettent de saisir une URL de morceau Spotify et de renvoyer les valeurs des caractéristiques.
Ce qu'il faut rechercher :
- Des caractéristiques cohérentes dans votre catalogue aident l'algorithme à regrouper votre musique. Si vos morceaux varient considérablement en énergie, en tempo et en valence, l'algorithme a plus de mal à prédire qui les appréciera.
- Des caractéristiques qui correspondent à votre public cible améliorent le placement dans la Radio. Si votre son est énergique et dansant, vos morceaux sont plus susceptibles d'apparaître dans les sessions Radio axées sur l'entraînement et les fêtes.
Le problème de l'introduction
L'analyse audio examine le morceau entier, mais le comportement de l'auditeur est fortement influencé par les 30 premières secondes. Si votre introduction présente des caractéristiques différentes du reste de la chanson (une introduction ambiante calme avant une rupture sonore forte), les caractéristiques audio peuvent ne pas refléter ce que les auditeurs vivent en premier.
Cela peut créer une inadéquation : l'algorithme recommande votre morceau en fonction de l'énergie globale, mais les auditeurs l'ignorent car l'introduction ne correspond pas à leurs attentes. Optimiser votre introduction est une compétence distincte de l'optimisation de votre profil audio global.
Limites de l'analyse audio
L'analyse audio est puissante, mais elle a des angles morts :
Le contexte culturel est manquant. L'algorithme connaît votre morceau, il a une énergie élevée et un tempo de 128 BPM, mais il ne sait pas que les paroles font référence à un moment culturel spécifique ou que le style de production évoque une époque particulière.
Des sons similaires ne sont pas des publics similaires. Deux morceaux peuvent avoir des caractéristiques audio presque identiques mais plaire à des auditeurs complètement différents. L'analyse audio trouve des voisins sonores, pas des voisins d'audience.
Le genre est inféré, pas déclaré. Spotify utilise les étiquettes de genre fournies par votre distributeur, mais l'analyse audio peut les remplacer si les caractéristiques sonores ne correspondent pas. Un morceau étiqueté comme « hip-hop » qui sonne comme de la folk acoustique peut être recommandé à des auditeurs de folk à la place.
Le rôle de l'audio dans l'algorithme élargi
L'analyse audio est l'une des trois principales sources de données utilisées par l'algorithme de Spotify :
| Source de données | Ce qu'elle capture | Idéal pour |
|---|---|---|
| Filtrage collaboratif | Modèles d'écoute entre utilisateurs | Trouver le chevauchement d'audience |
