Wenn Spotify Tracks finden muss, die sich ähnlich zu dem anhören, was Sie gerade hören, kann es sich nicht allein auf Tags und Metadaten verlassen. Es analysiert die Roh-Audiodaten selbst.
Dieser Leitfaden erklärt, wie Spotify Audio-Features aus Musikdateien extrahiert, was diese Features bedeuten und wie sie beeinflussen, wo Ihre Tracks in algorithmischen Playlists erscheinen.
Wie die Audioanalyse bei Spotify funktioniert
Wenn ein Track über einen Distributor bei Spotify hochgeladen wird, durchläuft er eine automatisierte Audioanalyse-Pipeline. Das System verarbeitet die Roh-Wellenform und extrahiert Dutzende messbare Eigenschaften.
Die Kerntechnologie sind Convolutional Neural Networks (CNNs), dieselbe Art von Machine-Learning-Modellen, die für die Bilderkennung verwendet werden. Anstatt Pixel zu analysieren, analysieren die CNNs von Spotify Spektrogramme, also visuelle Darstellungen von Schallfrequenzen über die Zeit.
Das CNN lernt, Muster in diesen Spektrogrammen zu erkennen: starke Schlagzeug-Beats und Synthesizer deuten auf elektronische oder Tanzmusik hin; sanfte Akustikgitarrenmuster weisen auf Folk- oder Singer-Songwriter-Genres hin; komplexe harmonische Strukturen könnten auf Jazz oder Klassik hindeuten.
Die von Spotify extrahierten Audio-Features
Die Spotify API stellt für jeden Track 13 Audio-Features bereit. Dies sind die Bausteine, mit denen der Algorithmus die klangliche Ähnlichkeit misst.
Rhythmus- und Tempo-Features
| Feature | Definition | Bereich |
|---|---|---|
tempo | Geschätzte Beats pro Minute (BPM) | 0-250 |
time_signature | Beats pro Takt (3/4, 4/4 usw.) | 1-7 |
danceability | Wie gut zum Tanzen geeignet, basierend auf Tempo, Rhythmusstabilität, Beatstärke | 0.0-1.0 |
Danceability ist nicht nur das Tempo. Ein Track mit 120 BPM mit unregelmäßigen Rhythmen erzielt eine niedrigere Punktzahl als ein Track mit 100 BPM mit einem gleichmäßigen Groove.
Energie- und Intensitäts-Features
| Feature | Definition | Bereich |
|---|---|---|
energy | Wahrgenommene Messung von Intensität und Aktivität | 0.0-1.0 |
loudness | Gesamtlautstärke in Dezibel (dB) | -60 bis 0 dB |
Energy kombiniert mehrere Signale: Dynamikbereich, wahrgenommene Lautstärke, Timbre, Einschlagsrate (wie oft neue Klänge beginnen) und Gesamtentropie. Death Metal erzielt hohe Werte; ein Bach-Präludium niedrige.
Tonale Features
| Feature | Definition | Bereich |
|---|---|---|
key | Das tonale Zentrum des Tracks | 0-11 (C=0, C#=1 usw.) |
mode | Dur (1) oder Moll (0) | 0 oder 1 |
Diese Features helfen dem Algorithmus, Tracks mit kompatiblen harmonischen Strukturen für nahtlose Übergänge in Radio und Autoplay zu gruppieren.
Stimmungs- und Charakter-Features
| Feature | Definition | Bereich |
|---|---|---|
valence | Musikalische Positivität (fröhlich vs. traurig) | 0.0-1.0 |
acousticness | Vertrauen darauf, dass der Track akustisch ist | 0.0-1.0 |
instrumentalness | Vorhersage, ob der Track keinen Gesang enthält | 0.0-1.0 |
speechiness | Vorhandensein von gesprochenen Worten | 0.0-1.0 |
liveness | Wahrscheinlichkeit, dass der Track live aufgenommen wurde | 0.0-1.0 |
Valence ist besonders wichtig für stimmungsbasierte Empfehlungen. Ein Track mit hoher Valence (0,8+) klingt fröhlich oder euphorisch. Ein Track mit niedriger Valence (0,2 oder darunter) klingt traurig, melancholisch oder wütend.
Wie Audio-Features Empfehlungen beeinflussen
Audioanalyse löst das Kaltstartproblem. Wenn ein neuer Künstler seinen ersten Track hochlädt, hat er keine Hörhistorie oder Daten zum kollaborativen Filtern. Aber die Audio-Features sind sofort verfügbar.
Hier erfahren Sie, wie jede algorithmische Oberfläche Audioanalyse nutzt:
Radio und Autoplay
Wenn Radio eine Warteschlange basierend auf einem Seed-Track generiert, ist die klangliche Ähnlichkeit das primäre Signal. Der Algorithmus findet Tracks mit ähnlichem:
- Tempo (in einem angemessenen Bereich für sanfte Übergänge)
- Energieniveau (um die Intensität der Session beizubehalten)
- Tonart und Modus (für harmonische Kompatibilität)
- Valence (um den emotionalen Ton beizubehalten)
Deshalb wird eine Radiostation, die mit einem energiegeladenen elektronischen Track "gesät" wurde, nicht plötzlich eine langsame Akustikballade einfügen, selbst wenn beide Songs Genre-Tags teilen.
Discover Weekly
Discover Weekly verwendet hauptsächlich kollaboratives Filtern, aber die Audioanalyse dient als Tiebreaker. Wenn mehrere Kandidatentracks ähnliche Hörer-Overlap-Scores aufweisen, bevorzugt der Algorithmus diejenigen, deren Audio-Features am nächsten an Ihrem bestehenden Geschmacksprofil liegen.
Daylist
Daylist verwendet Audio-Features, um Energieniveaus an die Tageszeit anzupassen. Tracks mit hoher Energie sammeln sich in Workout-Playlists; Tracks mit niedriger Energie und hoher Akustik erscheinen in abendlichen Entspannungsmixen.
Was Künstler aus Audio-Features lernen können
Sie können nicht direkt steuern, wie Spotify Ihre Audiodaten analysiert, aber das Verständnis dieser Features hilft Ihnen zu interpretieren, wie der Algorithmus Ihre Musik wahrnimmt.
Überprüfung der Audio-Features Ihres Tracks
Tools von Drittanbietern können die Audio-Features Ihres Tracks über die Spotify API abrufen. Suchen Sie nach Diensten, bei denen Sie eine Spotify-Track-URL eingeben können und die Ihnen die Feature-Werte zurückgeben.
Worauf Sie achten sollten:
- Konsistente Features im gesamten Katalog helfen dem Algorithmus, Ihre Musik zu gruppieren. Wenn Ihre Tracks in Energie, Tempo und Valence stark variieren, hat der Algorithmus größere Schwierigkeiten vorherzusagen, wer sie mögen wird.
- Features, die zu Ihrer Zielgruppe passen, verbessern die Platzierung in Radio-Sessions. Wenn Ihr Sound energiegeladen und tanzbar ist, erscheinen Ihre Tracks eher in Workout- und Party-Radio-Sessions.
Das Intro-Problem
Die Audioanalyse untersucht den gesamten Track, aber das Hörverhalten wird stark von den ersten 30 Sekunden beeinflusst. Wenn Ihr Intro andere Eigenschaften aufweist als der Rest des Songs (ein leises Ambient-Intro vor einem lauten Drop), spiegeln die Audio-Features möglicherweise nicht wider, was die Zuhörer zuerst erleben.
Dies kann zu einer Diskrepanz führen: Der Algorithmus empfiehlt Ihren Track aufgrund der Gesamtenergie, aber die Zuhörer überspringen ihn, weil das Intro nicht ihren Erwartungen entspricht. Die Optimierung Ihres Intros ist eine andere Fähigkeit als die Optimierung Ihres gesamten Audio-Profils.
Einschränkungen der Audioanalyse
Die Audioanalyse ist leistungsstark, hat aber blinde Flecken:
Die Rolle von Audio im breiteren Algorithmus
Die Audioanalyse ist eine von drei Hauptdatenquellen, die der Spotify-Algorithmus verwendet:
| Datenquelle | Was sie erfasst | Am besten geeignet für |
|---|---|---|
| Kollaboratives Filtern | Hörmuster über Benutzer hinweg | Finden von Zielgruppenüberschneidungen |
| Natural Language Processing | Songtexte, Playlist-Titel, Web-Erwähnungen | Verstehen des kulturellen Kontexts |
| Audioanalyse | Klangliche Eigenschaften der Wellenform | Finden klanglich ähnlicher Tracks |
Bei etablierten Künstlern dominiert das kollaborative Filtern. Bei neuen Künstlern hat die Audioanalyse mehr Gewicht, da keine Hörhistorie analysiert werden kann.
Das Ziel ist es, Musik mit klaren, konsistenten Audio-Eigenschaften zu veröffentlichen und gleichzeitig eine engagierte Hörerschaft aufzubauen. Die Audioanalyse hilft bei der Entdeckung; Engagement-Signale bestimmen, ob Sie weiterhin empfohlen werden.
