Zum Inhalt springen

Lösen Sie die aus Spotify Algorithmus mit Dynamoi

Jetzt starten

Dynamoi Lernen

Spotify Audioanalyse: CNNs und die 13 Audio-Features

Spotify nutzt Convolutional Neural Networks, um 13 Audio-Features aus Wellenformen zu extrahieren. Diese steuern Radio, Autoplay und Kaltstart-Empfehlungen für neue Veröffentlichungen.

A paper craft diorama showing a sound wave entering a machine and becoming data dials for energy and valence.

Spotify verwendet Convolutional Neural Networks (CNNs), um Spektrogramme von rohen Audiowellenformen zu analysieren und 13 messbare Merkmale pro Tracken zu extrahieren, darunter Tempo, Energie, Valenz, Tanzbarkeit und Tonart. Diese Merkmale treiben Radio und Autoplay an, indem sie klanglich kompatible Nachbarn finden, und sie lösen das Kaltstartproblem für neue Künstler ohne bisherige Hörerdaten. Bei Discover Weekly fungiert die Audioanalyse als Entscheidungshilfe, wenn Kandidaten-Tracks ähnliche kollaborative Filter-Scores aufweisen.

Wie die Audioanalyse bei Spotify funktioniert

Wenn ein Tracken über einen Distributor auf Spotify hochgeladen wird, durchläuft er eine automatisierte Audioanalyse-Pipeline. Das System verarbeitet die rohe Wellenform und extrahiert Dutzende messbarer Merkmale.

Die Kerntechnologie sind Convolutional Neural Networks (CNNs), dieselbe Art von Modellen für maschinelles Lernen, die auch für die Bilderkennung verwendet werden. Anstatt Pixel zu analysieren, analysieren Spotifys CNNs Spektrogramme, die visuelle Darstellungen von Schallfrequenzen über die Zeit sind.

Das CNN lernt, Muster in diesen Spektrogrammen zu erkennen: Starke Schlagzeug-Beats und Synthesizer deuten auf elektronische oder Tanzmusik hin; sanfte akustische Gitarrenmuster weisen auf Folk- oder Singer-Songwriter-Genres hin; komplexe harmonische Strukturen könnten auf Jazz oder Klassik hindeuten.

Die Audio-Features, die Spotify extrahiert

Die API von Spotify stellt 13 Audio-Features für jeden Tracken bereit. Dies sind die Bausteine, die der Algorithmus verwendet, um klangliche Ähnlichkeit zu messen.

Rhythmus- und Tempomerkmale

Merkmal Definition Bereich
tempo Geschätzte Beats pro Minute (BPM) 0-250
time_signature Beats pro Takt (3/4, 4/4, etc.) 1-7
danceability Eignung zum Tanzen basierend auf Tempo, Rhythmusstabilität, Beatstärke 0.0-1.0

Danceability ist nicht nur das Tempo. Ein Tracken mit 120 BPM und unregelmäßigen Rhythmen erzielt einen niedrigeren Wert als ein Tracken mit 100 BPM und einem stetigen Groove.

Energie- und Intensitätsmerkmale

Merkmal Definition Bereich
energy Wahrnehmungsmaß für Intensität und Aktivität 0.0-1.0
loudness Gesamtlautstärke in Dezibel (dB) -60 bis 0 dB

Energy kombiniert mehrere Signale: Dynamikbereich, wahrgenommene Lautstärke, Klangfarbe, Onset-Rate (wie oft neue Töne beginnen) und die allgemeine Entropie. Death Metal erzielt hohe Werte; ein Bach-Präludium niedrige.

Tonale Merkmale

Merkmal Definition Bereich
key Das tonale Zentrum des Tracks 0-11 (C=0, C#=1, etc.)
mode Dur (1) oder Moll (0) 0 oder 1

Diese Merkmale helfen dem Algorithmus, Tracks mit kompatiblen harmonischen Strukturen für nahtlose Übergänge in Radio und Autoplay zu gruppieren.

Stimmungs- und Charaktermerkmale

Merkmal Definition Bereich
valence Musikalische Positivität (fröhlich gegen traurig) 0.0-1.0
acousticness Zuversicht, dass der Tracken akustisch ist 0.0-1.0
instrumentalness Sagt voraus, ob der Tracken keinen Gesang hat 0.0-1.0
speechiness Vorhandensein von gesprochenen Wörtern 0.0-1.0
liveness Wahrscheinlichkeit, dass der Tracken live aufgeführt wurde 0.0-1.0

Valence ist besonders wichtig für stimmungsbasierte Empfehlungen. Ein Tracken mit hoher Valenz (0.8+) klingt fröhlich oder euphorisch. Ein Tracken mit niedriger Valenz (0.2 oder weniger) klingt traurig, melancholisch oder wütend.

Wie Audio-Features Empfehlungen beeinflussen

Die Audioanalyse löst das Kaltstartproblem. Wenn ein neuer Künstler seinen ersten Tracken hochlädt, gibt es keine Historie oder Daten aus kollaborativer Filterung. Die Audio-Features sind jedoch sofort verfügbar.

So nutzt jede algorithmische Oberfläche die Audioanalyse:

Radio und Autoplay

Wenn Radio basierend auf einem Seed-Tracken eine Warteschlange generiert, ist die klangliche Ähnlichkeit das primäre Signal. Der Algorithmus findet Tracks mit ähnlichem:

  • Tempo (innerhalb eines angemessenen Bereichs für flüssige Übergänge)
  • Energieniveau (um die Intensität der Sitzung beizubehalten)
  • Tonart und Modus (für harmonische Kompatibilität)
  • Valenz (um den emotionalen Ton zu bewahren)

Deshalb wird eine Radiostation, die auf einem energiegeladenen elektronischen Tracken basiert, nicht plötzlich eine langsame akustische Ballade einfügen, selbst wenn beide Songs dieselben Genre-Tags teilen.

Discover Weekly

Discover Weekly nutzt primär kollaboratives Filtern, doch die Audioanalyse dient als Entscheidungshilfe. Wenn mehrere infrage kommende Titel ähnliche Überschneidungen bei den Hörgewohnheiten aufweisen, bevorzugt der Algorithmus jene, deren Audio-Features am besten zu Ihrem bestehenden Geschmacksprofil passen.

Was Künstler aus Audio-Features lernen können

Sie können nicht direkt steuern, wie Spotify Ihr Audio analysiert, aber das Verständnis dieser Merkmale hilft Ihnen zu interpretieren, wie der Algorithmus Ihre Musik wahrnimmt.

Überprüfung der Audio-Features Ihres Tracks

Tip Werkzeuge von Drittanbietern können die Audio-Features Ihres Tracks aus der API von Spotify abrufen. Suchen Sie nach Diensten, bei denen Sie eine Spotify-Tracken-URL eingeben können und die Ihnen die Merkmalswerte zurückgeben.

Worauf Sie achten sollten:

  • Konsistente Merkmale in Ihrem Katalog helfen dem Algorithmus, Ihre Musik zu gruppieren. Wenn Ihre Tracks in Energie, Tempo und Valenz stark variieren, fällt es dem Algorithmus schwerer, vorherzusagen, wem sie gefallen werden.
  • Merkmale, die zu Ihrer Zielgruppe passen, verbessern die Platzierung im Radio. Wenn Ihr Sound energiegeladen und tanzbar ist, erscheinen Ihre Tracks eher in Radio-Sitzungen für Training oder Partys.

Das Intro-Problem

Die Audioanalyse untersucht den gesamten Tracken, aber das Hörerlebnis wird stark von den ersten 30 Sekunden beeinflusst. Wenn Ihr Intro andere Merkmale aufweist als der Rest des Songs (ein ruhiges Ambient-Intro vor einem lauten Drop), spiegeln die Audio-Features möglicherweise nicht das wider, was die Hörer zuerst erleben.

Dies kann zu einer Diskrepanz führen: Der Algorithmus empfiehlt Ihren Tracken aufgrund der Gesamtenergie, aber die Hörer skippen, weil das Intro nicht ihren Erwartungen entspricht. Die Optimierung Ihres Intros ist eine andere Fähigkeit als die Optimierung Ihres gesamten Audioprofils.

Grenzen der Audioanalyse

Die Audioanalyse ist leistungsstark, hat aber blinde Flecken:

Der kulturelle Kontext fehlt. Der Algorithmus weiß, dass Ihr Tracken viel Energie und ein Tempo von 128 BPM hat, aber er weiß nicht, dass sich der Text auf einen bestimmten kulturellen Moment bezieht oder dass der Produktionsstil eine bestimmte Ära heraufbeschwört.

Ähnliche Sounds sind nicht dasselbe wie ähnliche Zielgruppen. Zwei Tracks können nahezu identische Audio-Features haben, aber völlig unterschiedliche Hörer ansprechen. Die Audioanalyse findet klangliche Nachbarn, keine Zielgruppen-Nachbarn.

Das Genre wird abgeleitet, nicht deklariert. Spotify verwendet die von Ihrem Distributor bereitgestellten Genre-Tags, aber die Audioanalyse kann sie überschreiben, wenn die klanglichen Merkmale nicht übereinstimmen. Ein als "hip-hop" getaggter Tracken, der wie akustischer Folk klingt, wird möglicherweise stattdessen Folk-Hörern empfohlen.

Die Rolle von Audio im breiteren Algorithmus

Die Audioanalyse ist eine von drei Hauptdatenquellen, die der Spotify-Algorithmus verwendet:

Datenquelle Was sie erfasst Am besten für
Kollaborative Filterung Hörverhaltensmuster über Nutzer hinweg Finden von Zielgruppenüberschneidungen
Verarbeitung natürlicher Sprache Liedtexte, Playlist-Titel, Web-Erwähnungen Verständnis des kulturellen Kontextes
Audioanalyse Klangliche Merkmale der Wellenform Finden klanglich ähnlicher Tracks

Für etablierte Künstler dominiert die kollaborative Filterung. Für neue Künstler hat die Audioanalyse mehr Gewicht, da keine Hörhistorie zur Analyse vorliegt.

Das Ziel ist es, Musik mit klaren, konsistenten Audio-Merkmalen zu veröffentlichen und gleichzeitig eine engagierte Hörerschaft aufzubauen. Die Audioanalyse sorgt für Ihre Entdeckung; Engagement-Signale bestimmen, ob Sie weiterhin empfohlen werden.