18 Septiembre 2025
¡Dátame! Las charlas de LCD
XIMENA FERNANDEZ
City St George's University of London
Topology of cyclo-octane energy landscape. J Chem Phys. 2010 Jun 21;132(23):234115.
On the Local Behavior of Spaces of Natural Images. Int J Comput Vis 76, 1–12 (2008).
Toroidal topology of population activity in grid cells. Nature 602, 123–128 (2022).
Input dataset $X$.
Source: Ali et al. (2023)
Colaboración con Spotify
W. Reise, X. Fernandez, M. Dominguez. H. A. Harrington and M. Beguerisse-Diaz,
Topological fingerprints for audio identification.
SIAM Journal on Mathematics of
Data Science Vol. 6 Iss. 3 (2024).
Pueden reconocer las siguientes canciones?
Pueden reconocer las siguientes canciones?
Problema: Dadas dos pistas de audio, identificar si corresponden al mismo contenido de audio.
Shazam (2003)
Shazam (2003)
Shazam (2003)
Shazam (2003)
Estudio de caso:
Shazam
Sea $ S$ el mel-espectrograma de una pista de audio $s:[0,T]\to \mathbb{R}$.
Sea $ S$ el mel-espectrograma de una pista de audio $s:[0,T]\to \mathbb{R}$.
Sea $ S$ el mel-espectrograma de una pista de audio $s:[0,T]\to \mathbb{R}$.
$~~~~~~~~~~~~t_0~~~~~~~~~~~~~~~~~~~~~~~t_1~~~~~~~~~~~~~~~~~~~~t_2~~~~~~~~~~~~~~~~~~~~~t_3~~~~~~~~~~~~~~~~~~~~~~t_4~~~~~~~~~~~~~~~~~~~~~t_5 \dots$
$~~~~$
$~~~~~~~~~~~~~~~~t_0~~~~~~~~~~~~~~~~t_1~~~~~~~~~~~~~~~~t_2~~~~~~~~~~~~~~~t_3~~~~~~~~~~~~~~~t_4~~\dots~~~~~~~~~~~~~~~~~~t'_0~~~~~~~~~~~~~~~~t'_1~~~~~~~~~~~~~~~~t'_2~~~~~~~~~~~~~~~~t'_3~~~~~~~~~~~~~~~t'_4~~\dots$
Para cada dimensión homológica $d=0,1$, la matriz de distancias las curvas de Betti $d$, $M_d$, entre $s$ y $s'$ se define como \[ (M_d)_{i,j} = \Vert \beta_{i,d} - \beta'_{j,d} \Vert_{L^1}. \]
Definimos la distancia entre cada par de ventanas $W_i$ y $W_j'$ como \[ C_{i,j} = \lambda (M_0)_{i,j} + (1-\lambda) (M_1)_{i,j} \] para un parámetro $0 \leq \lambda \leq 1$.
Para $m \geq 1$, calculamos $\bar t'_{j_i} = \mathrm{median}\{t_{j_{i-m}},\dots, t_{j_{i-1}}, t_{j_i}, t_{j_{i+1}}, \dots, t_{j_{i+m}}\}$, la mediana móvil en $t_{j_i}$. Consideramos $\bar P = \{(t_i, \bar t'_{j_i}): i=1,\dots,k\}$.
Evaluamos la dependencia funcional monótona creciente de los puntos en $P$ como \[ \rho_{\bar P} = \mathrm{Pearson}\{(t_i), (\bar t'_{j_i})\}. \]
Music Obfuscator de Ben Grosser
Canción | Shazam (60 seg) |
---|---|
Smells Like Teen Spirit | No |
Get Lucky | No |
Giant Steps | No |
Stairway to Heaven | Sí |
Headlines | Sí |
Blue in Green | No |
You’re Gonna Leave | No |
Blue Ocean Floor | No |
Spotify Database + PySOX Transformer
Tipo de distorsión | Grado |
---|---|
Filtro low-pass | 200, 400, 800, 1600, 2000 |
Filtro high-pass | 50, 100, 200, 400, 800, 1200 |
Ruido blanco | 0.05, 0.10, 1.20, 0.40 |
Ruido rosa | 0.05, 0.10, 1.20, 0.40 |
Reverberación | 25, 50, 75, 100 |
Tempo | 0.50, 0.80, 1.1, 1.2, 1.50, 2.00 |
Pitch | -8, -4, -2, -1, 1, 2, 4, 8 |
(Accuracy)
W. Reise, X. Fernandez, M. Dominguez, H.A. Harrington, M. Beguerisse-Diaz. Topological fingerprints for audio identification (2024) SIAM Journal of Data Science