Google DeepMind ogłosił integrację danych Street View z Project Genie — swoistym „modelem świata”, zdolnym do generowania interaktywnych środowisk. Funkcja zaprezentowana podczas konferencji Google I/O pozwala na tworzenie symulacji osadzonych w rzeczywistych lokalizacjach, z możliwością zmiany takich parametrów jak pogoda czy pora roku. W prodzie, celem jest zastosowanie tej technologii w robotyce, grach oraz doświadczeniach podróżniczych.
Co dokładnie ogłoszono
Integracja polega na tym, że Project Genie wykorzystuje istniejące fotografie i panoramy zebrane przez Street View jako punkt wyjścia do budowy symulowanych, interaktywnych światów. Dzięki temu symulacje mogą być „zakotwiczone” w rzeczywistych miejscach — zamiast generować całkowicie fikcyjne scenerie, model pracuje na materiale z prawdziwych ulic i krajobrazów. Google podkreśla, że to krok w kierunku tworzenia środowisk przydatnych zarówno dla maszyn (np. robotów i samochodów autonomicznych), jak i dla ludzi korzystających z interaktywnych doświadczeń.
Jak działa połączenie Street View i Genie
Street View to kolekcja zdjęć i panoram gromadzonych przez Google od ponad 20 lat, wykonywanych zarówno z samochodów wyposażonych w kamery, jak i z plecaków z kamerami noszonych przez osoby. Firma udostępniła, że zbiór obejmuje ogromną ilość obrazów z wielu krajów i kontynentów, co stanowi bogate źródło informacji przestrzennej. Project Genie — zwłaszcza w wersji Genie 3, która została udostępniona w formie research preview — potrafi generować interaktywne światy na podstawie tekstowych wskazówek lub obrazów. Połączenie tych dwóch elementów daje modelowi materiał referencyjny z rzeczywistości oraz narzędzia do generowania nowych wariantów tej rzeczywistości, np. z inną pogodą, porą dnia czy rzadkimi zdarzeniami.
Przykłady zastosowań i korzyści
DeepMind wskazuje na kilka scenariuszy użycia. W robotyce modele świata mogą przygotować maszyny na nietypowe sytuacje, które w rzeczywistości występują rzadko — przykładowo, symulować krótkie, intensywne oślepienia słońcem w mieście, w którym takich zdarzeń jest niewiele, aby robot nie został zaskoczony podczas rzeczywistego działania. W branży gier i edukacji Genie umożliwia tworzenie świata gry osadzonego w realnych miejscach, które można dynamicznie modyfikować. W kontekście pojazdów autonomicznych narzędzia tego typu służą do treningu na „bardzo rzadkich wydarzeniach” — DeepMind wymienia współpracę, w której Genie pomaga w symulowaniu trudnych zdarzeń dla systemów testujących autonomiczne auta.
- Street View: ponad 20 lat zbierania zdjęć z samochodów i plecaków.
- Zbiory obejmują rozległy zakres miejsc i stanowią surowiec dla symulacji osadzonych w rzeczywistości.
- Genie 3: model świata udostępniony w formie research preview; wcześniej dostęp do narzędzia uzyskały subskrybentki i subskrybenci Google AI Ultra.
- Zastosowania: robotyka, gry, edukacja, trening systemów autonomicznych.
- Dostęp: funkcja Street View w Genie trafia najpierw do użytkowników Ultra w USA, z planowanym globalnym rozszerzeniem.
Ograniczenia jakościowe i braki w modelowaniu fizyki
Google zaznacza, że integracja jest eksperymentem i w wielu aspektach wymaga dalszych prac. Przykłady demonstracji pokazują, że wygenerowane sceny są rozpoznawalne i często szczegółowe, ale ciągle przypominają raczej grafikę z gry niż fotorealistyczne rekonstrukcje. Obecne wersje modeli nie są w pełni świadome zasad fizyki i przyczynowości; autorzy raportują sytuacje, w których postaci w symulacji przechodzą przez przeszkody roślinne lub inne obiekty. Modele uczą się zasad fizycznych w sposób empiryczny, przez obserwację, a nie przez twarde kodowanie reguł, co wymaga dalszego treningu i lepszych danych.
W źródłowych demonstracjach pojawia się porównanie do innych narzędzi generatywnych: niektóre modele obrazu i wideo już osiągają lepsze odwzorowanie pewnych zjawisk fizycznych (np. ruch cząstek, zachowanie tkanin czy pływające obiekty), podczas gdy generatory świata nadal nadążają za multimodalnym wideo pod względem dokładności. Z drugiej strony przełomową cechą, którą wskazują twórcy Maps, jest pamięć przestrzenna modelu — jego zdolność do zachowania ciągłości otoczenia w 360 stopniach i budowania kolejnych elementów świata na tej pamięci przestrzennej.
Dostępność i perspektywy wdrożeń
Funkcja Street View w Genie została udostępniona najpierw części użytkowników subskrypcji Google AI Ultra w Stanach Zjednoczonych, a firma zapowiada szersze wdrożenie dla pozostałych subskrybentów globalnie w ciągu kolejnych tygodni. Celem zespołu jest oddanie tej możliwości w ręce jak najszerszej grupy badaczy i twórców, jednocześnie z zastrzeżeniem, że to narzędzie eksperymentalne i wymaga dalszych usprawnień w zakresie dokładności i realizmu.
Rozwój takich systemów ma potencjalnie dalekosiężne konsekwencje dla testowania i skali wdrożeń technologii autonomicznych, tworzenia bogatszych doświadczeń w aplikacjach podróżniczych i rozrywkowych oraz przyspieszania badań w robotyce. Jednocześnie ważne pozostają kwestie związane z odpowiedzialnym użyciem danych przestrzennych, dokładnością symulacji oraz transparentnością przy stosowaniu syntetycznych środowisk w zastosowaniach krytycznych.