Spotify utilise des réseaux de neurones convolutifs (CNN) pour analyser les spectrogrammes des formes d'onde audio brutes et extraire 13 caractéristiques mesurables par morceau, notamment le tempo, l'énergie, la valence, la dansabilité et la tonalité. Ces caractéristiques alimentent la Radio et la Autoplay en trouvant des morceaux soniquement compatibles, et elles résolvent le problème du démarrage à froid pour les nouveaux artistes sans historique d'écoute. Pour Découvertes de la semaine, l'analyse audio sert de facteur de départage lorsque des morceaux candidats partagent des scores de filtrage collaboratif similaires.

Comment fonctionne l'analyse audio chez Spotify

Lorsqu'un morceau est importé sur Spotify via un distributeur, il passe par un pipeline d'analyse audio automatisé. Le système traite la forme d'onde brute et extrait des dizaines de caractéristiques mesurables.

La technologie de base repose sur les réseaux de neurones convolutifs (CNN), le même type de modèles d'apprentissage automatique utilisés pour la reconnaissance d'images. Au lieu d'analyser des pixels, les CNN de Spotify analysent des spectrogrammes, qui sont des représentations visuelles des fréquences sonores au fil du temps.

Le CNN apprend à détecter des motifs dans ces spectrogrammes : des battements de batterie puissants et des synthétiseurs suggèrent une musique électronique ou dance ; des motifs de guitare acoustique doux indiquent des genres folk ou auteur-compositeur-interprète ; des structures harmoniques complexes peuvent signaler du jazz ou de la musique classique.

Les caractéristiques audio extraites par Spotify

L'API de Spotify expose 13 caractéristiques audio pour chaque morceau. Ce sont les éléments de base que l'algorithme utilise pour mesurer la similarité sonore.

Caractéristiques du rythme et du tempo

Caractéristique	Définition	Plage
`tempo`	Battements par minute (BPM) estimés	0-250
`time_signature`	Battements par mesure (3/4, 4/4, etc.)	1-7
`danceability`	Aptitude à la danse basée sur le tempo, la stabilité du rythme, la force du beat	0.0-1.0

La danceability ne se limite pas au tempo. Un morceau à 120 BPM avec des rythmes irréguliers obtient un score inférieur à un morceau à 100 BPM avec un groove régulier.

Caractéristiques de l'énergie et de l'intensité

Caractéristique	Définition	Plage
`energy`	Mesure perceptive de l'intensité et de l'activité	0.0-1.0
`loudness`	Volume sonore global en décibels (dB)	-60 à 0 dB

L' energy combine plusieurs signaux : plage dynamique, volume perçu, timbre, taux d'attaque (fréquence à laquelle de nouveaux sons apparaissent) et entropie globale. Le death metal obtient un score élevé ; un prélude de Bach obtient un score faible.

Caractéristiques tonales

Caractéristique	Définition	Plage
`key`	Le centre tonal du morceau	0-11 (Do=0, Do#=1, etc.)
`mode`	Majeur (1) ou mineur (0)	0 ou 1

Ces caractéristiques aident l'algorithme à regrouper les morceaux ayant des structures harmoniques compatibles pour des transitions fluides dans la Radio et la Autoplay.

Caractéristiques d'ambiance et de caractère

Caractéristique	Définition	Plage
`valence`	Positivité musicale (joyeux contre triste)	0.0-1.0
`acousticness`	Confiance que le morceau est acoustique	0.0-1.0
`instrumentalness`	Prédit si le morceau ne contient pas de voix	0.0-1.0
`speechiness`	Présence de mots parlés	0.0-1.0
`liveness`	Probabilité que le morceau ait été interprété en live	0.0-1.0

La valence est particulièrement importante pour les recommandations basées sur l'humeur. Un morceau à haute valence (0.8+) semble joyeux ou euphorique. Un morceau à faible valence (0.2 ou moins) semble triste, mélancolique ou en colère.

Comment les caractéristiques audio influencent les recommandations

L'analyse audio résout le problème du démarrage à froid. Lorsqu'un nouvel artiste télécharge son premier morceau, il n'a aucun historique d'écoute ni données de filtrage collaboratif. Mais les caractéristiques audio sont disponibles immédiatement.

Voici comment chaque surface algorithmique utilise l'analyse audio :

Radio et Autoplay

Lorsque la Radio génère une file d'attente basée sur un morceau source, la similarité audio est le signal principal. L'algorithme trouve des morceaux avec des caractéristiques similaires :

Tempo (dans une plage raisonnable pour des transitions fluides)
Niveau d'énergie (pour maintenir l'intensité de la session)
Tonalité et mode (pour la compatibilité harmonique)
Valence (pour préserver la tonalité émotionnelle)

C'est pourquoi une station Radio basée sur un morceau électronique à haute énergie n'insérera pas soudainement une ballade acoustique lente, même si les deux chansons partagent des tags de genre.

Découvertes de la semaine

Discover Weekly utilise principalement le filtrage collaboratif, mais l'analyse audio sert d'élément de départage. Lorsque plusieurs pistes candidates présentent des scores de chevauchement d'écoute similaires, l'algorithme privilégie celles dont les caractéristiques audio sont les plus proches de votre profil de goût existant.

Ce que les artistes peuvent apprendre des caractéristiques audio

Vous ne pouvez pas contrôler directement la façon dont Spotify analyse votre audio, mais comprendre ces caractéristiques vous aide à interpréter la manière dont l'algorithme perçoit votre musique.

Vérifier les caractéristiques audio de votre morceau

Tip Des outils tiers peuvent extraire les caractéristiques audio de votre morceau depuis l'API de Spotify. Recherchez des services qui vous permettent de saisir une URL de morceau Spotify et qui renvoient les valeurs des caractéristiques.

Points à surveiller :

Des caractéristiques cohérentes dans votre catalogue aident l'algorithme à regrouper votre musique. Si vos morceaux varient énormément en énergie, tempo et valence, l'algorithme a plus de mal à prédire qui les appréciera.
Des caractéristiques qui correspondent à votre public cible améliorent le placement en Radio. Si votre son est énergique et dansant, vos morceaux sont plus susceptibles d'apparaître dans des sessions Radio axées sur le sport ou la fête.

Le problème de l'intro

L'analyse audio examine le morceau complet, mais le comportement de l'auditeur est fortement influencé par les 30 premières secondes. Si votre intro a des caractéristiques différentes du reste de la chanson (une intro ambiante calme avant un drop puissant), les caractéristiques audio peuvent ne pas refléter ce que les auditeurs entendent en premier.

Cela peut créer un décalage : l'algorithme recommande votre morceau en fonction de l'énergie globale, mais les auditeurs passent le morceau car l'intro ne correspond pas à leurs attentes. Optimiser votre intro est une compétence distincte de l'optimisation de votre profil audio global.

Limites de l'analyse audio

L'analyse audio est puissante, mais elle a des angles morts :

Le contexte culturel est absent. L'algorithme sait que votre morceau a une énergie élevée et un tempo de 128 BPM, mais il ne sait pas que les paroles font référence à un moment culturel spécifique ou que le style de production évoque une époque particulière.

Des sons similaires ne signifient pas des publics similaires. Deux morceaux peuvent avoir des caractéristiques audio presque identiques mais plaire à des auditeurs complètement différents. L'analyse audio trouve des voisins sonores, pas des voisins d'audience.

Le genre est déduit, pas déclaré. Spotify utilise les tags de genre fournis par votre distributeur, mais l'analyse audio peut les remplacer si les caractéristiques sonores ne correspondent pas. Un morceau tagué "hip-hop" qui ressemble à du folk acoustique peut être recommandé aux auditeurs de folk à la place.

Le rôle de l'audio dans l'algorithme global

L'analyse audio est l'une des trois principales sources de données utilisées par l'algorithme de Spotify :

Source de données	Ce qu'elle capture	Idéal pour
Filtrage collaboratif	Modèles d'écoute entre les utilisateurs	Trouver le chevauchement d'audience
Traitement du langage naturel	Paroles, titres de playlists, mentions web	Comprendre le contexte culturel
Analyse audio	Caractéristiques sonores de la forme d'onde	Trouver des morceaux soniquement similaires

Pour les artistes établis, le filtrage collaboratif domine. Pour les nouveaux artistes, l'analyse audio a plus de poids car il n'y a pas d'historique d'écoute à analyser.

L'objectif est de publier de la musique avec des caractéristiques audio claires et cohérentes tout en construisant une base d'auditeurs engagés. L'analyse audio vous permet d'être découvert ; les signaux d'engagement déterminent si vous continuez à être recommandé.