¡En la última década, la mayoría de los métodos en el reconocimiento visual de lugares (VPR) han utilizado redes neuronales para producir representaciones de características. Estas redes suelen producir una representación global de una imagen de lugar utilizando solo esta imagen en sí misma y descuidan las variaciones entre imágenes (por ejemplo, punto de vista e iluminación), lo que limita su robustez en escenas desafiantes. En este artículo, proponemos un método robusto de representación global con conciencia de correlación entre imágenes para VPR, llamado CricaVPR. Nuestro método utiliza el mecanismo de autoatención para correlacionar múltiples imágenes dentro de un lote. Estas imágenes pueden ser tomadas en el mismo lugar con diferentes condiciones o puntos de vista, o incluso capturadas en lugares diferentes. Por lo tanto, nuestro método puede utilizar las variaciones entre imágenes como una pista para guiar el aprendizaje de la representación, lo que garantiza que se produzcan características más robustas. Para facilitar aún más la robustez, proponemos un método de adaptación mejorado por convolución a múltiples escalas para adaptar modelos visuales preentrenados a la tarea de VPR, lo que introduce información local a múltiples escalas para mejorar aún más la representación con conciencia de correlación entre imágenes. Los resultados experimentales muestran que nuestro método supera a los métodos de vanguardia por un amplio margen con significativamente menos tiempo de entrenamiento. Nuestro método logra un 94.5% de R@1 en Pitts30k utilizando características globales de 512 dimensiones. El código se encuentra disponible en esta URL: https://www.ejemplo.com.

Durante la última década, la mayoría de los enfoques en el reconocimiento visual de lugares (VPR) han empleado redes neuronales para generar representaciones de características. Estas redes suelen crear una representación global de una imagen de lugar utilizando solo esa imagen y pasando por alto las variaciones entre imágenes, lo que limita su capacidad en escenas desafiantes. En este artículo, se presenta un método robusto de representación global con conciencia de correlación entre imágenes para VPR, denominado CricaVPR. Este método utiliza el mecanismo de autoatención para correlacionar múltiples imágenes dentro de un lote, permitiendo utilizar las variaciones entre imágenes como guía para el aprendizaje de la representación. Para mejorar la robustez, se propone un método de adaptación mejorado por convolución a múltiples escalas para ajustar modelos visuales preentrenados a la tarea de VPR, introduciendo información local a múltiples escalas para mejorar la representación con conciencia de correlación entre imágenes. Los resultados experimentales demuestran que este método supera a los enfoques actuales con un tiempo de entrenamiento significativamente menor, logrando un 94.5% de R@1 en Pitts30k con características globales de 512 dimensiones. El código está disponible en la siguiente URL: https://www.ejemplo.com.

Por mogudasl