Lorsque Spotify doit trouver des morceaux qui ressemblent à ce que vous écoutez, il ne peut pas se fier uniquement aux balises et aux métadonnées. Il analyse l'audio brut lui-même.
Ce guide explique comment Spotify extrait les caractéristiques audio des fichiers musicaux, ce que signifient ces caractéristiques et comment elles influencent l'endroit où vos morceaux apparaissent dans les playlists algorithmiques.
Comment fonctionne l'analyse audio sur Spotify
Lorsqu'un morceau est téléchargé sur Spotify via un distributeur, il passe par un pipeline d'analyse audio automatisé. Le système traite la forme d'onde brute et extrait des dizaines de caractéristiques mesurables.
La technologie de base est le réseau neuronal convolutif (CNN), le même type de modèle d'apprentissage automatique utilisé pour la reconnaissance d'images. Au lieu d'analyser des pixels, les CNN de Spotify analysent des spectrogrammes, qui sont des représentations visuelles des fréquences sonores au fil du temps.
Le CNN apprend à détecter des motifs dans ces spectrogrammes : des rythmes de batterie et des synthétiseurs puissants suggèrent de la musique électronique ou dance ; des motifs de guitare acoustique doux indiquent des genres folk ou auteur-compositeur-interprète ; des structures harmoniques complexes pourraient signaler du jazz ou du classique.
Les caractéristiques audio extraites par Spotify
L'API de Spotify expose 13 caractéristiques audio pour chaque morceau. Ce sont les blocs de construction que l'algorithme utilise pour mesurer la similarité sonore.
Caractéristiques de rythme et tempo
| Caractéristique | Définition | Plage |
|---|---|---|
tempo |
Battements par minute (BPM) estimés | 0-250 |
time_signature |
Battements par mesure (3/4, 4/4, etc.) | 1-7 |
danceability |
À quel point il est adapté à la danse, basé sur le tempo, la stabilité du rythme, la force des battements | 0.0-1.0 |
La Danceability n'est pas seulement une question de tempo. Un morceau à 120 BPM avec des rythmes irréguliers obtiendra un score inférieur à un morceau à 100 BPM avec un groove stable.
Caractéristiques d'énergie et d'intensité
| Caractéristique | Définition | Plage |
|---|---|---|
energy |
Mesure perceptive de l'intensité et de l'activité | 0.0-1.0 |
loudness |
Volume global en décibels (dB) | -60 à 0 dB |
L'Energy combine plusieurs signaux : plage dynamique, volume perçu, timbre, taux d'apparition (fréquence des nouveaux sons) et entropie globale. Le death metal obtient un score élevé ; une prélude de Bach obtient un score faible.
Caractéristiques tonales
| Caractéristique | Définition | Plage |
|---|---|---|
key |
Le centre tonal du morceau | 0-11 (Do=0, Do#=1, etc.) |
mode |
Majeur (1) ou mineur (0) | 0 ou 1 |
Ces caractéristiques aident l'algorithme à regrouper les morceaux ayant des structures harmoniques compatibles pour des transitions fluides dans la Radio et l'Autoplay.
Caractéristiques d'ambiance et de caractère
| Caractéristique | Définition | Plage |
|---|---|---|
valence |
Positivité musicale (joyeux vs triste) | 0.0-1.0 |
acousticness |
Confiance que le morceau est acoustique | 0.0-1.0 |
instrumentalness |
Prédit si le morceau n'a pas de voix | 0.0-1.0 |
speechiness |
Présence de paroles prononcées | 0.0-1.0 |
liveness |
Probabilité que le morceau ait été joué en direct | 0.0-1.0 |
La Valence est particulièrement importante pour les recommandations basées sur l'humeur. Un morceau à valence élevée (0,8+) sonne joyeux ou euphorique. Un morceau à faible valence (0,2 ou moins) sonne triste, mélancolique ou en colère.
Comment les caractéristiques audio influencent les recommandations
L'analyse audio résout le problème du démarrage à froid. Lorsqu'un nouvel artiste télécharge son premier morceau, il n'a aucun historique d'écoute ni données de filtrage collaboratif. Mais les caractéristiques audio sont disponibles immédiatement.
Voici comment chaque surface algorithmique utilise l'analyse audio :
Radio et Autoplay
Lorsque la Radio génère une file d'attente basée sur un morceau de départ, la similarité audio est le signal principal. L'algorithme trouve des morceaux avec des caractéristiques similaires :
- Tempo (dans une plage raisonnable pour des transitions fluides)
- Niveau d'énergie (pour maintenir l'intensité de la session)
- Tonalité et mode (pour la compatibilité harmonique)
- Valence (pour préserver le ton émotionnel)
C'est pourquoi une station Radio initiée par un morceau électronique à haute énergie n'insérera pas soudainement une ballade acoustique lente, même si les deux chansons partagent des balises de genre.
Discover Weekly
Discover Weekly utilise principalement le filtrage collaboratif, mais l'analyse audio sert de critère de départage. Lorsque plusieurs morceaux candidats ont des scores de chevauchement d'écoute similaires, l'algorithme privilégie ceux dont les caractéristiques audio sont les plus proches de votre profil de goût existant.
Ce que les artistes peuvent apprendre des caractéristiques audio
Vous ne pouvez pas contrôler directement la manière dont Spotify analyse votre audio, mais comprendre ces caractéristiques vous aide à interpréter comment l'algorithme perçoit votre musique.
Vérifier les caractéristiques audio de votre morceau
Tip Des outils tiers peuvent extraire les caractéristiques audio de votre morceau depuis l'API de Spotify. Recherchez des services qui vous permettent de saisir une URL de morceau Spotify et de renvoyer les valeurs des caractéristiques.
Ce qu'il faut rechercher :
- Des caractéristiques cohérentes dans tout votre catalogue aident l'algorithme à regrouper votre musique. Si vos morceaux varient considérablement en énergie, tempo et valence, l'algorithme aura plus de mal à prédire qui les appréciera.
- Des caractéristiques qui correspondent à votre public cible améliorent le placement dans la Radio. Si votre son est énergique et dansant, vos morceaux sont plus susceptibles d'apparaître dans les sessions Radio axées sur l'entraînement ou les fêtes.
Le problème de l'introduction
L'analyse audio examine le morceau entier, mais le comportement de l'auditeur est fortement influencé par les 30 premières secondes. Si votre introduction présente des caractéristiques différentes du reste de la chanson (une introduction ambiante calme avant une montée en puissance forte), les caractéristiques audio peuvent ne pas refléter ce que les auditeurs vivent en premier.
Cela peut créer une inadéquation : l'algorithme recommande votre morceau en fonction de l'énergie globale, mais les auditeurs l'ignorent parce que l'introduction ne correspond pas à leurs attentes. Optimiser votre introduction est une compétence distincte de l'optimisation de votre profil audio global.
Limites de l'analyse audio
L'analyse audio est puissante, mais elle a des angles morts :
Le contexte culturel est absent. L'algorithme connaît le tempo et l'énergie élevée de votre morceau, mais il ne sait pas que les paroles font référence à un moment culturel spécifique ou que le style de production évoque une ère particulière.
Des sons similaires ne sont pas des publics similaires. Deux morceaux peuvent avoir des caractéristiques audio presque identiques mais plaire à des auditeurs complètement différents. L'analyse audio trouve des voisins sonores, pas des voisins d'audience.
Le genre est inféré, pas déclaré. Spotify utilise les balises de genre fournies par votre distributeur, mais l'analyse audio peut les remplacer si les caractéristiques sonores ne correspondent pas. Un morceau étiqueté « hip-hop » qui sonne comme de la folk acoustique peut être recommandé à des auditeurs de folk à la place.
Le rôle de l'audio dans l'algorithme général
L'analyse audio est l'une des trois principales sources de données utilisées par l'algorithme Spotify :
| Source de données | Ce qu'elle capture | Idéal pour |
|---|---|---|
| Filtrage collaboratif | Modèles d'écoute entre utilisateurs | Trouver le chevauchement d'audience |
| Traitement du langage naturel | Paroles, titres de playlists, mentions sur le web | Comprendre le contexte culturel |
| Analyse audio | Caractéristiques sonores de la forme d'onde | Trouver des morceaux soniquement similaires |
Pour les artistes établis, le filtrage collaboratif domine. Pour les nouveaux artistes, l'analyse audio a plus de poids car il n'y a pas d'historique d'écoute à analyser.
L'objectif est de sortir de la musique avec des caractéristiques audio claires et cohérentes tout en bâtissant une base d'auditeurs engagés. L'analyse audio vous fait découvrir ; les signaux d'engagement déterminent si vous continuez à être recommandé.