Académicos de Stanford desarrollan Street View

Noticias

HogarHogar / Noticias / Académicos de Stanford desarrollan Street View

Jul 07, 2023

Académicos de Stanford desarrollan Street View

Un trío de científicos informáticos de Stanford ha desarrollado un modelo de aprendizaje profundo para geolocalizar imágenes de Google Street View, lo que significa que puede determinar en general dónde se tomó una foto con solo mirarla.

Un trío de científicos informáticos de Stanford ha desarrollado un modelo de aprendizaje profundo para geolocalizar imágenes de Google Street View, lo que significa que puede determinar en general dónde se tomó una foto con solo mirarla.

Se dice que el software funciona lo suficientemente bien como para vencer a los mejores jugadores de GeoGuessr, un popular juego de adivinanzas de ubicación en línea.

Eso no quiere decir que el modelo de los académicos pueda señalar exactamente dónde se tomó una fotografía a nivel de calle; en cambio, puede determinar de manera confiable el país y hacer una buena suposición, dentro de 15 millas de la ubicación correcta, la mayor parte del tiempo, aunque la mayoría de las veces, está más lejos que esa distancia.

En un artículo preimpreso titulado "PIGEON: Predicción de geolocalizaciones de imágenes", Lukas Haas, Michal Skreta y Silas Alberti describen cómo desarrollaron PIGEON.

Es un modelo de geolocalización de imágenes derivado de su propio modelo CLIP previamente entrenado llamado StreetCLIP. Técnicamente hablando, el modelo se complementa con un conjunto de geoceldas semánticas (áreas de tierra delimitadas, similares a condados o provincias, que consideran detalles específicos de la región como marcas viales, calidad de la infraestructura y señales viales) y ProtoNets (una técnica de clasificación que utiliza sólo unos pocos ejemplos.

PIGEON compitió recientemente contra Trevor Rainbolt, un jugador mejor clasificado de GeoGuessr conocido simplemente como Rainbolt en YouTube, y ganó.

Los expertos en su artículo afirman que PIGEON es el "primer modelo de IA que vence consistentemente a los jugadores humanos en GeoGuessr, ubicándose entre el 0,01 por ciento de los mejores jugadores". Se nos dice que unos 50 millones o más de personas han jugado GeoGuessr.

Alberti, candidato a doctorado en Stanford, dijo a The Register: "Era algo así como nuestra pequeña competencia Deep Mind", en referencia a la afirmación de Google de que su sistema DeepMind AlphaCode puede escribir código comparable al de los programadores humanos.

​​Creo que esta fue la primera vez que la IA venció al mejor humano del mundo en GeoGuessr.

"Creo que esta fue la primera vez que la IA venció al mejor humano del mundo en GeoGuessr", dijo, señalando que Rainbolt prevaleció en dos partidos anteriores con sistemas de IA.

La geolocalización de imágenes se ha convertido en una especie de arte entre los investigadores de código abierto, gracias al trabajo de organizaciones de investigación periodística como Bellingcat. El éxito de PIGEON demuestra que también es una ciencia que tiene importantes implicaciones para la privacidad.

Si bien PIGEON fue entrenado para geolocalizar imágenes de Street View, Alberti cree que esta técnica puede facilitar la geolocalización de casi cualquier imagen, al menos en exteriores. Dijo que él y sus colegas habían probado el sistema con conjuntos de datos de imágenes que no incluyen imágenes de Street View y funcionó muy bien.

Alberti relató una conversación con un representante de una plataforma de inteligencia de código abierto que expresó interés en su tecnología de geolocalización. "Creemos que es probable que nuestro método también pueda aplicarse a estos escenarios", afirmó.

Cuando se le preguntó si esta tecnología hará que sea aún más difícil ocultar dónde se capturaron las imágenes, Alberti dijo que si estás en cualquier calle, la geolocalización será bastante probable porque hay muchas señales reveladoras sobre dónde estás.

"El otro día me preguntaron: '¿Qué pasa si estás fuera de las calles, en algún lugar en medio de la naturaleza?'", dijo. "Incluso allí, tienes muchas señales de dónde podrías estar, como la forma en que están las hojas, el cielo, el color del suelo. Estos ciertamente pueden decirte en qué país o en qué región de un país estás, "Pero probablemente no puedas localizar la ciudad en particular. Creo que las fotografías del interior probablemente seguirán siendo muy difíciles de localizar".

Creo que las fotografías del interior probablemente seguirán siendo muy difíciles de localizar.

Alberti dijo que una de las razones clave por las que PIGEON funciona bien es que se basa en CLIP de OpenAI como modelo básico.

"Muchos otros modelos de geolocalización anteriores simplemente entrenaban el modelo desde cero o usaban un modelo basado en ImageNet. Pero notamos que al usar CLIP como modelo base, hemos visto muchas más imágenes, hemos visto muchos más detalles pequeños, y, por lo tanto, se adapta mucho mejor a la tarea".

Alberti dijo que el uso de geoceldas semánticas resultó muy importante porque si simplemente predices coordenadas, tiendes a obtener malos resultados. "Incluso con CLIP como modelo básico, la mayor parte del tiempo aterrizarás en el océano", dijo.

"Dedicamos mucho tiempo a optimizar estas geoceldas, por ejemplo, haciéndolas proporcionales a la densidad de población en determinadas regiones y respetando diferentes fronteras administrativas en múltiples niveles".

Haas, Skreta y Alberti también idearon una función de pérdida (que calcula la distancia entre la salida del algoritmo y la salida esperada) que minimiza la penalización de la predicción si la geocelda predicha está cerca de la geocelda real. Y aplican un algoritmo de metaaprendizaje que refina las predicciones de ubicación dentro de una geocelda determinada para mejorar la precisión.

"De esta manera a veces podemos comparar imágenes de hasta un kilómetro de distancia", dijo Alberti.

Como señaló Skreta en el video de Rainbolt, PIGEON actualmente adivina correctamente el 92 por ciento de los países y tiene un error de kilómetro medio de 44 km, lo que se traduce en una puntuación de GeoGuessr de 4.525. Según el artículo de investigación, el modelo con temática de aves sitúa alrededor del 40 por ciento de las conjeturas dentro de un radio de 25 kilómetros del objetivo.

Juego encendido. ®

Envíanos noticias

6060Obtén nuestro60