18 Septiembre 2025
¡Dátame! Las charlas de LCD
XIMENA FERNANDEZ
City St George's University of London
 
					
					 
					
				 
					Topology of cyclo-octane energy landscape. J Chem Phys. 2010 Jun 21;132(23):234115.
 
					 
					
					On the Local Behavior of Spaces of Natural Images. Int J Comput Vis 76, 1–12 (2008).
 
					Toroidal topology of population activity in grid cells. Nature 602, 123–128 (2022).
Input dataset $X$.
 
				    Source: Ali et al. (2023)
 
				Colaboración con Spotify
W. Reise, X. Fernandez, M. Dominguez. H. A. Harrington and M. Beguerisse-Diaz,
				    	
Topological fingerprints for audio identification. 
 SIAM Journal on Mathematics of
Data Science  Vol. 6 Iss. 3 (2024).
Pueden reconocer las siguientes canciones?
Pueden reconocer las siguientes canciones?
Problema: Dadas dos pistas de audio, identificar si corresponden al mismo contenido de audio.
			    
			         Shazam (2003)
 Shazam (2003)
 
			
			    
			         Shazam (2003)
 Shazam (2003)
 
			     
			 
  
				
			    
			         Shazam (2003)
 Shazam (2003)
 
			         
			    
			    
			         Shazam (2003)
 Shazam (2003)


 
			     
			     
			     
			     
			     
			     
			     
			Estudio de caso:
			    
			         Shazam
 Shazam
 
			 
 
			 
 
			Sea $ S$ el mel-espectrograma de una pista de audio $s:[0,T]\to \mathbb{R}$.
 
 
     
 
     
 
     
 
     
 
     
Sea $ S$ el mel-espectrograma de una pista de audio $s:[0,T]\to \mathbb{R}$.
Sea $ S$ el mel-espectrograma de una pista de audio $s:[0,T]\to \mathbb{R}$.
$~~~~~~~~~~~~t_0~~~~~~~~~~~~~~~~~~~~~~~t_1~~~~~~~~~~~~~~~~~~~~t_2~~~~~~~~~~~~~~~~~~~~~t_3~~~~~~~~~~~~~~~~~~~~~~t_4~~~~~~~~~~~~~~~~~~~~~t_5 \dots$
 
 
     
    
         
        
 
        
 
        
 
        
 
        $~~~~$
        
 
        
 
        
 
        
 
        
 
    
$~~~~~~~~~~~~~~~~t_0~~~~~~~~~~~~~~~~t_1~~~~~~~~~~~~~~~~t_2~~~~~~~~~~~~~~~t_3~~~~~~~~~~~~~~~t_4~~\dots~~~~~~~~~~~~~~~~~~t'_0~~~~~~~~~~~~~~~~t'_1~~~~~~~~~~~~~~~~t'_2~~~~~~~~~~~~~~~~t'_3~~~~~~~~~~~~~~~t'_4~~\dots$
Para cada dimensión homológica $d=0,1$, la matriz de distancias las curvas de Betti $d$, $M_d$, entre $s$ y $s'$ se define como \[ (M_d)_{i,j} = \Vert \beta_{i,d} - \beta'_{j,d} \Vert_{L^1}. \]
Definimos la distancia entre cada par de ventanas $W_i$ y $W_j'$ como \[ C_{i,j} = \lambda (M_0)_{i,j} + (1-\lambda) (M_1)_{i,j} \] para un parámetro $0 \leq \lambda \leq 1$.
 
                 
            
 
             
        
        
    
Para $m \geq 1$, calculamos $\bar t'_{j_i} = \mathrm{median}\{t_{j_{i-m}},\dots, t_{j_{i-1}}, t_{j_i}, t_{j_{i+1}}, \dots, t_{j_{i+m}}\}$, la mediana móvil en $t_{j_i}$. Consideramos $\bar P = \{(t_i, \bar t'_{j_i}): i=1,\dots,k\}$.
        
    
Evaluamos la dependencia funcional monótona creciente de los puntos en $P$ como \[ \rho_{\bar P} = \mathrm{Pearson}\{(t_i), (\bar t'_{j_i})\}. \]
        
        
    
Music Obfuscator de Ben Grosser
| Canción | Shazam (60 seg) | 
|---|---|
| Smells Like Teen Spirit | No | 
| Get Lucky | No | 
| Giant Steps | No | 
| Stairway to Heaven | Sí | 
| Headlines | Sí | 
| Blue in Green | No | 
| You’re Gonna Leave | No | 
| Blue Ocean Floor | No | 
Spotify Database + PySOX Transformer
 Spotify Web API. Dataset de fragmentos de 30 segundos de ~135.000 canciones.
 Spotify Web API. Dataset de fragmentos de 30 segundos de ~135.000 canciones.| Tipo de distorsión | Grado | 
|---|---|
| Filtro low-pass | 200, 400, 800, 1600, 2000 | 
| Filtro high-pass | 50, 100, 200, 400, 800, 1200 | 
| Ruido blanco | 0.05, 0.10, 1.20, 0.40 | 
| Ruido rosa | 0.05, 0.10, 1.20, 0.40 | 
| Reverberación | 25, 50, 75, 100 | 
| Tempo | 0.50, 0.80, 1.1, 1.2, 1.50, 2.00 | 
| Pitch | -8, -4, -2, -1, 1, 2, 4, 8 | 
(Accuracy)
 
		         
		             
		        W. Reise, X. Fernandez, M. Dominguez, H.A. Harrington, M. Beguerisse-Diaz. Topological fingerprints for audio identification (2024) SIAM Journal of Data Science
