Spotify의 오디오 분석 작동 원리
트랙이 유통사를 통해 Spotify에 업로드되면 자동 오디오 분석 파이프라인을 거칩니다. 시스템은 원시 파형을 처리하여 수십 가지의 측정 가능한 특성을 추출합니다.
핵심 기술은 이미지 인식에 사용되는 것과 동일한 머신러닝 모델인 **합성곱 신경망(CNN)**입니다. Spotify의 CNN은 픽셀을 분석하는 대신 시간에 따른 소리 주파수를 시각적으로 표현한 스펙트로그램을 분석합니다.
CNN은 이 스펙트로그램에서 패턴을 감지하는 법을 배웁니다. 강한 드럼 비트와 신디사이저는 일렉트로닉이나 댄스 음악을, 부드러운 어쿠스틱 기타 패턴은 포크나 싱어송라이터 장르를, 복잡한 화성 구조는 재즈나 클래식을 나타낼 수 있습니다.
Spotify가 추출하는 오디오 특징
Spotify API는 모든 트랙에 대해 13가지 오디오 특징을 제공합니다. 이는 알고리즘이 음향적 유사성을 측정하는 데 사용하는 구성 요소입니다.
리듬 및 템포 특징
| 특징 | 정의 | 범위 |
|---|---|---|
tempo |
추정 분당 비트 수(BPM) | 0-250 |
time_signature |
마디당 비트 수(3/4, 4/4 등) | 1-7 |
danceability |
템포, 리듬 안정성, 비트 강도를 기반으로 한 춤추기 적합도 | 0.0-1.0 |
Danceability는 단순히 템포만을 의미하지 않습니다. 불규칙한 리듬의 120 BPM 트랙은 안정적인 그루브를 가진 100 BPM 트랙보다 낮은 점수를 받을 수 있습니다.
에너지 및 강도 특징
| 특징 | 정의 | 범위 |
|---|---|---|
energy |
강도와 활동성에 대한 지각적 측정치 | 0.0-1.0 |
loudness |
데시벨(dB) 단위의 전체 음량 | -60 ~ 0 dB |
Energy는 다이내믹 레인지, 인지된 음량, 음색, 온셋 레이트(새로운 소리가 시작되는 빈도), 전체 엔트로피 등 여러 신호를 결합합니다. 데스 메탈은 높은 점수를, Bach의 전주곡은 낮은 점수를 받습니다.
음향 특징
| 특징 | 정의 | 범위 |
|---|---|---|
key |
트랙의 조성 | 0-11 (C=0, C#=1 등) |
mode |
장조(1) 또는 단조(0) | 0 또는 1 |
이러한 특징은 알고리즘이 Radio 및 Autoplay에서 매끄러운 전환을 위해 화성 구조가 호환되는 트랙을 그룹화하는 데 도움을 줍니다.
분위기 및 성격 특징
| 특징 | 정의 | 범위 |
|---|---|---|
valence |
음악적 긍정성(행복함 vs 슬픔) | 0.0-1.0 |
acousticness |
트랙이 어쿠스틱일 확률 | 0.0-1.0 |
instrumentalness |
보컬이 없을 확률 | 0.0-1.0 |
speechiness |
구어체의 존재 여부 | 0.0-1.0 |
liveness |
라이브 공연일 확률 | 0.0-1.0 |
Valence는 분위기 기반 추천에 특히 중요합니다. 높은 밸런스(0.8 이상)의 트랙은 밝거나 들뜬 느낌을 줍니다. 낮은 밸런스(0.2 이하)의 트랙은 슬프거나 우울하거나 화난 느낌을 줍니다.
오디오 특징이 추천에 미치는 영향
오디오 분석은 콜드 스타트 문제를 해결합니다. 신규 아티스트가 첫 트랙을 업로드하면 청취 기록이나 협업 필터링 데이터가 없지만, 오디오 특징은 즉시 사용할 수 있습니다.
각 알고리즘 영역에서 오디오 분석을 활용하는 방법은 다음과 같습니다.
Radio 및 Autoplay
Radio가 시드 트랙을 기반으로 대기열을 생성할 때, 오디오 유사성이 주요 신호가 됩니다. 알고리즘은 다음과 같은 요소가 유사한 트랙을 찾습니다.
- 템포(매끄러운 전환을 위한 적정 범위 내)
- 에너지 레벨(세션의 강도 유지)
- 키와 모드(화성적 호환성)
- 밸런스(감정적 톤 유지)
이것이 바로 고에너지 일렉트로닉 트랙으로 시작된 Radio 스테이션이 장르 태그가 같더라도 갑자기 느린 어쿠스틱 발라드를 삽입하지 않는 이유입니다.
Discover Weekly
Discover Weekly는 주로 협업 필터링을 사용하지만, 오디오 분석이 동점자 결정전 역할을 합니다. 여러 후보 트랙의 청취 중복 점수가 비슷할 경우, 알고리즘은 사용자의 기존 취향 프로필과 오디오 특성이 가장 유사한 트랙을 우선적으로 선택합니다.
아티스트가 오디오 특징에서 배울 점
Spotify가 오디오를 분석하는 방식을 직접 통제할 수는 없지만, 이러한 특징을 이해하면 알고리즘이 내 음악을 어떻게 인식하는지 파악하는 데 도움이 됩니다.
트랙의 오디오 특징 확인하기
Tip 타사 도구를 사용하여 Spotify API에서 트랙의 오디오 특징을 가져올 수 있습니다. Spotify 트랙 URL을 입력하면 특징 값을 반환해 주는 서비스를 찾아보세요.
확인해야 할 점:
- 카탈로그 전반의 일관된 특징은 알고리즘이 내 음악을 분류하는 데 도움을 줍니다. 트랙마다 에너지, 템포, 밸런스가 크게 다르면 알고리즘이 누구에게 추천할지 예측하기 어려워집니다.
- 타겟 오디언스와 일치하는 특징은 Radio 노출을 개선합니다. 내 음악이 에너지가 넘치고 댄서블하다면 운동이나 파티 관련 Radio 세션에 노출될 가능성이 높습니다.
인트로 문제
오디오 분석은 트랙 전체를 검토하지만, 청취자 행동은 처음 30초에 큰 영향을 받습니다. 인트로가 곡의 나머지 부분과 다른 특성을 가진다면(큰 드롭 전의 조용한 앰비언트 인트로 등), 오디오 특징이 청취자가 처음 경험하는 것과 일치하지 않을 수 있습니다.
이는 불일치를 초래할 수 있습니다. 알고리즘은 전체적인 에너지를 기반으로 트랙을 추천하지만, 인트로가 기대치와 맞지 않아 청취자가 건너뛰는 경우입니다. 인트로 최적화는 전체 오디오 프로필 최적화와는 별개의 기술입니다.
오디오 분석의 한계
오디오 분석은 강력하지만 사각지대가 있습니다:
문화적 맥락이 부족합니다. 알고리즘은 내 트랙이 높은 에너지와 128 BPM 템포를 가졌다는 것은 알지만, 가사가 특정 문화적 순간을 언급하거나 프로덕션 스타일이 특정 시대를 연상시킨다는 점은 알지 못합니다.
비슷한 소리가 비슷한 오디언스를 의미하지는 않습니다. 두 트랙이 거의 동일한 오디오 특징을 가질 수 있지만 완전히 다른 청취자에게 어필할 수 있습니다. 오디오 분석은 음향적 이웃을 찾을 뿐, 오디언스 이웃을 찾는 것은 아닙니다.
장르는 추론될 뿐 선언되지 않습니다. Spotify는 유통사가 제공한 장르 태그를 사용하지만, 음향 특성이 일치하지 않으면 오디오 분석이 이를 무시할 수 있습니다. "hip-hop"으로 태그되었지만 어쿠스틱 포크처럼 들리는 트랙은 포크 청취자에게 추천될 수 있습니다.
더 넓은 알고리즘에서 오디오의 역할
오디오 분석은 Spotify 알고리즘이 사용하는 세 가지 주요 데이터 소스 중 하나입니다.
| 데이터 소스 | 캡처 대상 | 용도 |
|---|---|---|
| 협업 필터링 | 사용자 간 청취 패턴 | 오디언스 중복 찾기 |
| 자연어 처리 | 가사, 플레이리스트 제목, 웹 언급 | 문화적 맥락 이해 |
| 오디오 분석 | 파형의 음향적 특성 | 음향적으로 유사한 트랙 찾기 |
기존 아티스트에게는 협업 필터링이 지배적입니다. 신규 아티스트에게는 분석할 청취 기록이 없기 때문에 오디오 분석의 비중이 더 큽니다.
목표는 명확하고 일관된 오디오 특징을 가진 음악을 발매하면서 참여도 높은 청취자 기반을 구축하는 것입니다. 오디오 분석은 발견을 돕고, 참여 신호는 지속적인 추천 여부를 결정합니다.