Spotify Audioanalyse: CNNs für Radio & Autoplay

Spotify nutzt Convolutional Neural Networks, um Audio-Merkmale aus Roh-Wellenformen zu extrahieren. Diese Merkmale steuern Radio, Autoplay und Empfehlungen zur klanglichen Ähnlichkeit.

How-to Guide
6 min read
A paper craft diorama showing a sound wave entering a machine and becoming data dials for energy and valence.

Wenn Spotify Tracks finden muss, die dem ähneln, was Sie gerade hören, kann es sich nicht nur auf Tags und Metadaten verlassen. Es analysiert die Roh-Audiodaten selbst.

Dieser Leitfaden erklärt, wie Spotify Audio-Merkmale aus Musikdateien extrahiert, was diese Merkmale bedeuten und wie sie beeinflussen, wo Ihre Tracks in algorithmischen Playlists erscheinen.

Wie die Audioanalyse bei Spotify funktioniert

Wenn ein Track über einen Distributor bei Spotify hochgeladen wird, durchläuft er eine automatisierte Audioanalyse-Pipeline. Das System verarbeitet die Roh-Wellenform und extrahiert Dutzende messbare Eigenschaften.

Die Kerntechnologie sind Convolutional Neural Networks (CNNs), dieselbe Art von Machine-Learning-Modellen, die zur Bilderkennung verwendet werden. Anstatt Pixel zu analysieren, analysieren die CNNs von Spotify Spektrogramme, also visuelle Darstellungen von Schallfrequenzen über die Zeit.

Das CNN lernt, Muster in diesen Spektrogrammen zu erkennen: starke Schlagzeug-Beats und Synthesizer deuten auf elektronische oder Dance-Musik hin; sanfte Akustikgitarrenmuster weisen auf Folk oder Singer-Songwriter-Genres hin; komplexe harmonische Strukturen könnten auf Jazz oder Klassik hindeuten.

Die von Spotify extrahierten Audio-Merkmale

Die Spotify API stellt für jeden Track 13 Audio-Merkmale bereit. Dies sind die Bausteine, mit denen der Algorithmus die klangliche Ähnlichkeit misst.

Rhythmus- und Tempo-Merkmale

Feature Definition Range
tempo Geschätzte Beats pro Minute (BPM) 0-250
time_signature Beats pro Takt (3/4, 4/4, etc.) 1-7
danceability Wie gut zum Tanzen geeignet, basierend auf Tempo, Rhythmusstabilität, Beatstärke 0.0-1.0

Danceability ist nicht nur das Tempo. Ein Track mit 120 BPM mit unregelmäßigen Rhythmen erzielt einen niedrigeren Wert als ein Track mit 100 BPM mit einem gleichmäßigen Groove.

Energie- und Intensitätsmerkmale

Feature Definition Range
energy Wahrgenommene Messung von Intensität und Aktivität 0.0-1.0
loudness Gesamtlautstärke in Dezibel (dB) -60 bis 0 dB

Energy kombiniert mehrere Signale: Dynamikbereich, wahrgenommene Lautstärke, Timbre, Anschlagsrate (wie oft neue Klänge beginnen) und allgemeine Entropie. Death Metal erzielt hohe Werte; ein Bach-Präludium erzielt niedrige Werte.

Tonale Merkmale

Feature Definition Range
key Das tonale Zentrum des Tracks 0-11 (C=0, C#=1, etc.)
mode Dur (1) oder Moll (0) 0 oder 1

Diese Merkmale helfen dem Algorithmus, Tracks mit kompatiblen harmonischen Strukturen für nahtlose Übergänge in Radio und Autoplay zu gruppieren.

Stimmungs- und Charaktermerkmale

Feature Definition Range
valence Musikalische Positivität (fröhlich vs. traurig) 0.0-1.0
acousticness Vertrauen, dass der Track akustisch ist 0.0-1.0
instrumentalness Vorhersage, ob der Track keine Vocals hat 0.0-1.0
speechiness Anwesenheit von gesprochenen Worten 0.0-1.0
liveness Wahrscheinlichkeit, dass der Track live aufgeführt wurde 0.0-1.0

Valence ist besonders wichtig für stimmungsbasierte Empfehlungen. Ein Track mit hoher Valence (0.8+) klingt fröhlich oder euphorisch. Ein Track mit niedriger Valence (0.2 oder darunter) klingt traurig, melancholisch oder wütend.

Wie Audio-Merkmale Empfehlungen beeinflussen

Die Audioanalyse löst das Kaltstartproblem. Wenn ein neuer Künstler seinen ersten Track hochlädt, hat er keine Hörhistorie oder Daten zum kollaborativen Filtern. Aber die Audio-Merkmale sind sofort verfügbar.

Hier erfahren Sie, wie jede algorithmische Oberfläche Audioanalyse nutzt:

Radio und Autoplay

Wenn Radio eine Warteschlange basierend auf einem Seed-Track generiert, ist die klangliche Ähnlichkeit das primäre Signal. Der Algorithmus findet Tracks mit ähnlichem:

  • Tempo (in einem angemessenen Bereich für reibungslose Übergänge)
  • Energieniveau (um die Intensität der Session beizubehalten)
  • Tonart und Modus (für harmonische Kompatibilität)
  • Valence (um den emotionalen Ton beizubehalten)

Deshalb wird eine Radiostation, die von einem energiegeladenen elektronischen Track ausgeht, nicht plötzlich eine langsame Akustikballade einfügen, auch wenn beide Songs Genre-Tags teilen.

Discover Weekly

Discover Weekly nutzt hauptsächlich kollaboratives Filtern, aber die Audioanalyse dient als Tiebreaker. Wenn mehrere Kandidatentracks ähnliche Überlappungswerte beim Hören aufweisen, bevorzugt der Algorithmus diejenigen, deren Audio-Merkmale seinem bestehenden Geschmacksprofil am nächsten kommen.

Was Künstler aus Audio-Merkmalen lernen können

Sie können nicht direkt steuern, wie Spotify Ihre Audiodaten analysiert, aber das Verständnis dieser Merkmale hilft Ihnen zu interpretieren, wie der Algorithmus Ihre Musik wahrnimmt.

Überprüfung der Audio-Merkmale Ihres Tracks

Tip Tools von Drittanbietern können die Audio-Merkmale Ihres Tracks über die Spotify API abrufen. Suchen Sie nach Diensten, bei denen Sie eine Spotify-Track-URL eingeben können und die Ihnen die Merkmalswerte zurückgeben.

Worauf Sie achten sollten:

  • Konsistente Merkmale im gesamten Katalog helfen dem Algorithmus, Ihre Musik zu gruppieren. Wenn Ihre Tracks bei Energie, Tempo und Valence stark schwanken, hat der Algorithmus Schwierigkeiten vorherzusagen, wer sie genießen wird.
  • Merkmale, die zu Ihrer Zielgruppe passen, verbessern die Platzierung im Radio. Wenn Ihr Sound energiegeladen und tanzbar ist, erscheinen Ihre Tracks eher in Workout- und Party-Radiosendungen.

Das Intro-Problem

Die Audioanalyse untersucht den gesamten Track, aber das Hörverhalten wird stark von den ersten 30 Sekunden beeinflusst. Wenn Ihr Intro andere Eigenschaften als der Rest des Songs hat (ein leises Ambient-Intro vor einem lauten Drop), spiegeln die Audio-Merkmale möglicherweise nicht wider, was die Zuhörer zuerst erleben.

Dies kann zu einer Diskrepanz führen: Der Algorithmus empfiehlt Ihren Track aufgrund der Gesamtenergie, aber die Zuhörer überspringen ihn, weil das Intro nicht ihren Erwartungen entspricht. Die Optimierung Ihres Intros ist eine andere Fähigkeit als die Optimierung Ihres allgemeinen Audio-Profils.

Einschränkungen der Audioanalyse

Die Audioanalyse ist leistungsstark, hat aber blinde Flecken:

Kultureller Kontext fehlt. Der Algorithmus weiß, dass Ihr Track hohe Energie und ein Tempo von 128 BPM hat, aber er weiß nicht, dass der Text einen bestimmten kulturellen Moment referenziert oder dass der Produktionsstil eine bestimmte Ära hervorruft.

Ähnliche Klänge sind nicht dasselbe wie ähnliche Zielgruppen. Zwei Tracks können nahezu identische Audio-Merkmale aufweisen, aber völlig unterschiedliche Zuhörer ansprechen. Die Audioanalyse findet klangliche Nachbarn, aber keine Zielgruppen-Nachbarn.

Das Genre wird abgeleitet, nicht deklariert. Spotify verwendet die von Ihrem Distributor bereitgestellten Genre-Tags, aber die Audioanalyse kann diese außer Kraft setzen, wenn die klanglichen Eigenschaften nicht übereinstimmen. Ein Track, der als „Hip-Hop“ getaggt ist, aber nach Akustik-Folk klingt, wird stattdessen möglicherweise Folk-Zuhörern empfohlen.

Die Rolle von Audio im breiteren Algorithmus

Die Audioanalyse ist eine von drei Hauptdatenquellen, die der Spotify-Algorithmus verwendet:

Data source What it captures Best for
Collaborative filtering Hörverhalten über Benutzer hinweg Zielgruppenüberschneidungen finden
Natural language processing Songtexte, Playlist-Titel, Web-Erwähnungen Kulturellen Kontext verstehen
Audio analysis Klangliche Eigenschaften der Wellenform Klanglich ähnliche Tracks finden

Für etablierte Künstler dominiert das kollaborative Filtern. Für neue Künstler wiegt die Audioanalyse mehr, da noch keine Hörhistorie analysiert werden kann.

Das Ziel ist es, Musik mit klaren, konsistenten Audio-Merkmalen zu veröffentlichen und gleichzeitig eine engagierte Hörerschaft aufzubauen. Die Audioanalyse hilft bei der Entdeckung; Engagement-Signale bestimmen, ob Sie weiterhin empfohlen werden.