Spotify verwendet Convolutional Neural Networks (CNNs), um Spektrogramme von rohen Audiowellenformen zu analysieren und 13 messbare Merkmale pro Track zu extrahieren, darunter Tempo, Energie, Valenz, Tanzbarkeit und Tonart. Diese Merkmale treiben Radio und Autoplay an, indem sie klanglich kompatible Nachbarn finden, und sie lösen das Kaltstartproblem für neue Künstler ohne bisherige Hörerdaten. Bei Discover Weekly fungiert die Audioanalyse als Entscheidungshilfe, wenn Kandidaten-Tracks ähnliche kollaborative Filter-Scores aufweisen.

Wie die Audioanalyse bei Spotify funktioniert

Wenn ein Track über einen Distributor auf Spotify hochgeladen wird, durchläuft er eine automatisierte Audioanalyse-Pipeline. Das System verarbeitet die rohe Wellenform und extrahiert Dutzende messbarer Merkmale.

Die Kerntechnologie sind Convolutional Neural Networks (CNNs), dieselbe Art von Modellen für maschinelles Lernen, die auch für die Bilderkennung verwendet werden. Anstatt Pixel zu analysieren, analysieren Spotifys CNNs Spektrogramme, die visuelle Darstellungen von Schallfrequenzen über die Zeit sind.

Das CNN lernt, Muster in diesen Spektrogrammen zu erkennen: Starke Schlagzeug-Beats und Synthesizer deuten auf elektronische oder Tanzmusik hin; sanfte akustische Gitarrenmuster weisen auf Folk- oder Singer-Songwriter-Genres hin; komplexe harmonische Strukturen könnten auf Jazz oder Klassik hindeuten.

Die Audio-Features, die Spotify extrahiert

Die API von Spotify stellt 13 Audio-Features für jeden Track bereit. Dies sind die Bausteine, die der Algorithmus verwendet, um klangliche Ähnlichkeit zu messen.

Rhythmus- und Tempomerkmale

Merkmal	Definition	Bereich
`tempo`	Geschätzte Beats pro Minute (BPM)	0-250
`time_signature`	Beats pro Takt (3/4, 4/4, etc.)	1-7
`danceability`	Eignung zum Tanzen basierend auf Tempo, Rhythmusstabilität, Beatstärke	0.0-1.0

Danceability ist nicht nur das Tempo. Ein Track mit 120 BPM und unregelmäßigen Rhythmen erzielt einen niedrigeren Wert als ein Track mit 100 BPM und einem stetigen Groove.

Energie- und Intensitätsmerkmale

Merkmal	Definition	Bereich
`energy`	Wahrnehmungsmaß für Intensität und Aktivität	0.0-1.0
`loudness`	Gesamtlautstärke in Dezibel (dB)	-60 bis 0 dB

Energy kombiniert mehrere Signale: Dynamikbereich, wahrgenommene Lautstärke, Klangfarbe, Onset-Rate (wie oft neue Töne beginnen) und die allgemeine Entropie. Death Metal erzielt hohe Werte; ein Bach-Präludium niedrige.

Tonale Merkmale

Merkmal	Definition	Bereich
`key`	Das tonale Zentrum des Tracks	0-11 (C=0, C#=1, etc.)
`mode`	Dur (1) oder Moll (0)	0 oder 1

Diese Merkmale helfen dem Algorithmus, Tracks mit kompatiblen harmonischen Strukturen für nahtlose Übergänge in Radio und Autoplay zu gruppieren.

Stimmungs- und Charaktermerkmale

Merkmal	Definition	Bereich
`valence`	Musikalische Positivität (fröhlich gegen traurig)	0.0-1.0
`acousticness`	Zuversicht, dass der Track akustisch ist	0.0-1.0
`instrumentalness`	Sagt voraus, ob der Track keinen Gesang hat	0.0-1.0
`speechiness`	Vorhandensein von gesprochenen Wörtern	0.0-1.0
`liveness`	Wahrscheinlichkeit, dass der Track live aufgeführt wurde	0.0-1.0

Valence ist besonders wichtig für stimmungsbasierte Empfehlungen. Ein Track mit hoher Valenz (0.8+) klingt fröhlich oder euphorisch. Ein Track mit niedriger Valenz (0.2 oder weniger) klingt traurig, melancholisch oder wütend.

Wie Audio-Features Empfehlungen beeinflussen

Die Audioanalyse löst das Kaltstartproblem. Wenn ein neuer Künstler seinen ersten Track hochlädt, gibt es keine Historie oder Daten aus kollaborativer Filterung. Die Audio-Features sind jedoch sofort verfügbar.

So nutzt jede algorithmische Oberfläche die Audioanalyse:

Radio und Autoplay

Wenn Radio basierend auf einem Seed-Track eine Warteschlange generiert, ist die klangliche Ähnlichkeit das primäre Signal. Der Algorithmus findet Tracks mit ähnlichem:

Tempo (innerhalb eines angemessenen Bereichs für flüssige Übergänge)
Energieniveau (um die Intensität der Sitzung beizubehalten)
Tonart und Modus (für harmonische Kompatibilität)
Valenz (um den emotionalen Ton zu bewahren)

Deshalb wird eine Radiostation, die auf einem energiegeladenen elektronischen Track basiert, nicht plötzlich eine langsame akustische Ballade einfügen, selbst wenn beide Songs dieselben Genre-Tags teilen.

Discover Weekly

Discover Weekly nutzt primär kollaboratives Filtern, doch die Audioanalyse dient als Entscheidungshilfe. Wenn mehrere infrage kommende Titel ähnliche Überschneidungen bei den Hörgewohnheiten aufweisen, bevorzugt der Algorithmus jene, deren Audio-Features am besten zu Ihrem bestehenden Geschmacksprofil passen.

Was Künstler aus Audio-Features lernen können

Sie können nicht direkt steuern, wie Spotify Ihr Audio analysiert, aber das Verständnis dieser Merkmale hilft Ihnen zu interpretieren, wie der Algorithmus Ihre Musik wahrnimmt.

Überprüfung der Audio-Features Ihres Tracks

Tip Tools von Drittanbietern können die Audio-Features Ihres Tracks aus der API von Spotify abrufen. Suchen Sie nach Diensten, bei denen Sie eine Spotify-Track-URL eingeben können und die Ihnen die Merkmalswerte zurückgeben.

Worauf Sie achten sollten:

Konsistente Merkmale in Ihrem Katalog helfen dem Algorithmus, Ihre Musik zu gruppieren. Wenn Ihre Tracks in Energie, Tempo und Valenz stark variieren, fällt es dem Algorithmus schwerer, vorherzusagen, wem sie gefallen werden.
Merkmale, die zu Ihrer Zielgruppe passen, verbessern die Platzierung im Radio. Wenn Ihr Sound energiegeladen und tanzbar ist, erscheinen Ihre Tracks eher in Radio-Sitzungen für Training oder Partys.

Das Intro-Problem

Die Audioanalyse untersucht den gesamten Track, aber das Hörerlebnis wird stark von den ersten 30 Sekunden beeinflusst. Wenn Ihr Intro andere Merkmale aufweist als der Rest des Songs (ein ruhiges Ambient-Intro vor einem lauten Drop), spiegeln die Audio-Features möglicherweise nicht das wider, was die Hörer zuerst erleben.

Dies kann zu einer Diskrepanz führen: Der Algorithmus empfiehlt Ihren Track aufgrund der Gesamtenergie, aber die Hörer skippen, weil das Intro nicht ihren Erwartungen entspricht. Die Optimierung Ihres Intros ist eine andere Fähigkeit als die Optimierung Ihres gesamten Audioprofils.

Grenzen der Audioanalyse

Die Audioanalyse ist leistungsstark, hat aber blinde Flecken:

Der kulturelle Kontext fehlt. Der Algorithmus weiß, dass Ihr Track viel Energie und ein Tempo von 128 BPM hat, aber er weiß nicht, dass sich der Text auf einen bestimmten kulturellen Moment bezieht oder dass der Produktionsstil eine bestimmte Ära heraufbeschwört.

Ähnliche Sounds sind nicht dasselbe wie ähnliche Zielgruppen. Zwei Tracks können nahezu identische Audio-Features haben, aber völlig unterschiedliche Hörer ansprechen. Die Audioanalyse findet klangliche Nachbarn, keine Zielgruppen-Nachbarn.

Das Genre wird abgeleitet, nicht deklariert. Spotify verwendet die von Ihrem Distributor bereitgestellten Genre-Tags, aber die Audioanalyse kann sie überschreiben, wenn die klanglichen Merkmale nicht übereinstimmen. Ein als "hip-hop" getaggter Track, der wie akustischer Folk klingt, wird möglicherweise stattdessen Folk-Hörern empfohlen.

Die Rolle von Audio im breiteren Algorithmus

Die Audioanalyse ist eine von drei Hauptdatenquellen, die der Spotify-Algorithmus verwendet:

Datenquelle	Was sie erfasst	Am besten für
Kollaborative Filterung	Hörverhaltensmuster über Nutzer hinweg	Finden von Zielgruppenüberschneidungen
Verarbeitung natürlicher Sprache	Liedtexte, Playlist-Titel, Web-Erwähnungen	Verständnis des kulturellen Kontextes
Audioanalyse	Klangliche Merkmale der Wellenform	Finden klanglich ähnlicher Tracks

Für etablierte Künstler dominiert die kollaborative Filterung. Für neue Künstler hat die Audioanalyse mehr Gewicht, da keine Hörhistorie zur Analyse vorliegt.

Das Ziel ist es, Musik mit klaren, konsistenten Audio-Merkmalen zu veröffentlichen und gleichzeitig eine engagierte Hörerschaft aufzubauen. Die Audioanalyse sorgt für Ihre Entdeckung; Engagement-Signale bestimmen, ob Sie weiterhin empfohlen werden.