Wie die Audioanalyse bei Spotify funktioniert
Wenn ein Tracken über einen Distributor auf Spotify hochgeladen wird, durchläuft er eine automatisierte Audioanalyse-Pipeline. Das System verarbeitet die rohe Wellenform und extrahiert Dutzende messbarer Merkmale.
Die Kerntechnologie sind Convolutional Neural Networks (CNNs), dieselbe Art von Modellen für maschinelles Lernen, die auch für die Bilderkennung verwendet werden. Anstatt Pixel zu analysieren, analysieren Spotifys CNNs Spektrogramme, die visuelle Darstellungen von Schallfrequenzen über die Zeit sind.
Das CNN lernt, Muster in diesen Spektrogrammen zu erkennen: Starke Schlagzeug-Beats und Synthesizer deuten auf elektronische oder Tanzmusik hin; sanfte akustische Gitarrenmuster weisen auf Folk- oder Singer-Songwriter-Genres hin; komplexe harmonische Strukturen könnten auf Jazz oder Klassik hindeuten.
Die Audio-Features, die Spotify extrahiert
Die API von Spotify stellt 13 Audio-Features für jeden Tracken bereit. Dies sind die Bausteine, die der Algorithmus verwendet, um klangliche Ähnlichkeit zu messen.
Rhythmus- und Tempomerkmale
| Merkmal | Definition | Bereich |
|---|---|---|
tempo |
Geschätzte Beats pro Minute (BPM) | 0-250 |
time_signature |
Beats pro Takt (3/4, 4/4, etc.) | 1-7 |
danceability |
Eignung zum Tanzen basierend auf Tempo, Rhythmusstabilität, Beatstärke | 0.0-1.0 |
Danceability ist nicht nur das Tempo. Ein Tracken mit 120 BPM und unregelmäßigen Rhythmen erzielt einen niedrigeren Wert als ein Tracken mit 100 BPM und einem stetigen Groove.
Energie- und Intensitätsmerkmale
| Merkmal | Definition | Bereich |
|---|---|---|
energy |
Wahrnehmungsmaß für Intensität und Aktivität | 0.0-1.0 |
loudness |
Gesamtlautstärke in Dezibel (dB) | -60 bis 0 dB |
Energy kombiniert mehrere Signale: Dynamikbereich, wahrgenommene Lautstärke, Klangfarbe, Onset-Rate (wie oft neue Töne beginnen) und die allgemeine Entropie. Death Metal erzielt hohe Werte; ein Bach-Präludium niedrige.
Tonale Merkmale
| Merkmal | Definition | Bereich |
|---|---|---|
key |
Das tonale Zentrum des Tracks | 0-11 (C=0, C#=1, etc.) |
mode |
Dur (1) oder Moll (0) | 0 oder 1 |
Diese Merkmale helfen dem Algorithmus, Tracks mit kompatiblen harmonischen Strukturen für nahtlose Übergänge in Radio und Autoplay zu gruppieren.
Stimmungs- und Charaktermerkmale
| Merkmal | Definition | Bereich |
|---|---|---|
valence |
Musikalische Positivität (fröhlich gegen traurig) | 0.0-1.0 |
acousticness |
Zuversicht, dass der Tracken akustisch ist | 0.0-1.0 |
instrumentalness |
Sagt voraus, ob der Tracken keinen Gesang hat | 0.0-1.0 |
speechiness |
Vorhandensein von gesprochenen Wörtern | 0.0-1.0 |
liveness |
Wahrscheinlichkeit, dass der Tracken live aufgeführt wurde | 0.0-1.0 |
Valence ist besonders wichtig für stimmungsbasierte Empfehlungen. Ein Tracken mit hoher Valenz (0.8+) klingt fröhlich oder euphorisch. Ein Tracken mit niedriger Valenz (0.2 oder weniger) klingt traurig, melancholisch oder wütend.
Wie Audio-Features Empfehlungen beeinflussen
Die Audioanalyse löst das Kaltstartproblem. Wenn ein neuer Künstler seinen ersten Tracken hochlädt, gibt es keine Historie oder Daten aus kollaborativer Filterung. Die Audio-Features sind jedoch sofort verfügbar.
So nutzt jede algorithmische Oberfläche die Audioanalyse:
Radio und Autoplay
Wenn Radio basierend auf einem Seed-Tracken eine Warteschlange generiert, ist die klangliche Ähnlichkeit das primäre Signal. Der Algorithmus findet Tracks mit ähnlichem:
- Tempo (innerhalb eines angemessenen Bereichs für flüssige Übergänge)
- Energieniveau (um die Intensität der Sitzung beizubehalten)
- Tonart und Modus (für harmonische Kompatibilität)
- Valenz (um den emotionalen Ton zu bewahren)
Deshalb wird eine Radiostation, die auf einem energiegeladenen elektronischen Tracken basiert, nicht plötzlich eine langsame akustische Ballade einfügen, selbst wenn beide Songs dieselben Genre-Tags teilen.
Discover Weekly
Discover Weekly nutzt primär kollaboratives Filtern, doch die Audioanalyse dient als Entscheidungshilfe. Wenn mehrere infrage kommende Titel ähnliche Überschneidungen bei den Hörgewohnheiten aufweisen, bevorzugt der Algorithmus jene, deren Audio-Features am besten zu Ihrem bestehenden Geschmacksprofil passen.
Was Künstler aus Audio-Features lernen können
Sie können nicht direkt steuern, wie Spotify Ihr Audio analysiert, aber das Verständnis dieser Merkmale hilft Ihnen zu interpretieren, wie der Algorithmus Ihre Musik wahrnimmt.
Überprüfung der Audio-Features Ihres Tracks
Tip Werkzeuge von Drittanbietern können die Audio-Features Ihres Tracks aus der API von Spotify abrufen. Suchen Sie nach Diensten, bei denen Sie eine Spotify-Tracken-URL eingeben können und die Ihnen die Merkmalswerte zurückgeben.
Worauf Sie achten sollten:
- Konsistente Merkmale in Ihrem Katalog helfen dem Algorithmus, Ihre Musik zu gruppieren. Wenn Ihre Tracks in Energie, Tempo und Valenz stark variieren, fällt es dem Algorithmus schwerer, vorherzusagen, wem sie gefallen werden.
- Merkmale, die zu Ihrer Zielgruppe passen, verbessern die Platzierung im Radio. Wenn Ihr Sound energiegeladen und tanzbar ist, erscheinen Ihre Tracks eher in Radio-Sitzungen für Training oder Partys.
Das Intro-Problem
Die Audioanalyse untersucht den gesamten Tracken, aber das Hörerlebnis wird stark von den ersten 30 Sekunden beeinflusst. Wenn Ihr Intro andere Merkmale aufweist als der Rest des Songs (ein ruhiges Ambient-Intro vor einem lauten Drop), spiegeln die Audio-Features möglicherweise nicht das wider, was die Hörer zuerst erleben.
Dies kann zu einer Diskrepanz führen: Der Algorithmus empfiehlt Ihren Tracken aufgrund der Gesamtenergie, aber die Hörer skippen, weil das Intro nicht ihren Erwartungen entspricht. Die Optimierung Ihres Intros ist eine andere Fähigkeit als die Optimierung Ihres gesamten Audioprofils.
Grenzen der Audioanalyse
Die Audioanalyse ist leistungsstark, hat aber blinde Flecken:
Der kulturelle Kontext fehlt. Der Algorithmus weiß, dass Ihr Tracken viel Energie und ein Tempo von 128 BPM hat, aber er weiß nicht, dass sich der Text auf einen bestimmten kulturellen Moment bezieht oder dass der Produktionsstil eine bestimmte Ära heraufbeschwört.
Ähnliche Sounds sind nicht dasselbe wie ähnliche Zielgruppen. Zwei Tracks können nahezu identische Audio-Features haben, aber völlig unterschiedliche Hörer ansprechen. Die Audioanalyse findet klangliche Nachbarn, keine Zielgruppen-Nachbarn.
Das Genre wird abgeleitet, nicht deklariert. Spotify verwendet die von Ihrem Distributor bereitgestellten Genre-Tags, aber die Audioanalyse kann sie überschreiben, wenn die klanglichen Merkmale nicht übereinstimmen. Ein als "hip-hop" getaggter Tracken, der wie akustischer Folk klingt, wird möglicherweise stattdessen Folk-Hörern empfohlen.
Die Rolle von Audio im breiteren Algorithmus
Die Audioanalyse ist eine von drei Hauptdatenquellen, die der Spotify-Algorithmus verwendet:
| Datenquelle | Was sie erfasst | Am besten für |
|---|---|---|
| Kollaborative Filterung | Hörverhaltensmuster über Nutzer hinweg | Finden von Zielgruppenüberschneidungen |
| Verarbeitung natürlicher Sprache | Liedtexte, Playlist-Titel, Web-Erwähnungen | Verständnis des kulturellen Kontextes |
| Audioanalyse | Klangliche Merkmale der Wellenform | Finden klanglich ähnlicher Tracks |
Für etablierte Künstler dominiert die kollaborative Filterung. Für neue Künstler hat die Audioanalyse mehr Gewicht, da keine Hörhistorie zur Analyse vorliegt.
Das Ziel ist es, Musik mit klaren, konsistenten Audio-Merkmalen zu veröffentlichen und gleichzeitig eine engagierte Hörerschaft aufzubauen. Die Audioanalyse sorgt für Ihre Entdeckung; Engagement-Signale bestimmen, ob Sie weiterhin empfohlen werden.