Google rozwija swoją sztuczną inteligencję Gemini, przekształcając ją z narzędzia, które po prostu „pokazuje” obrazy, w system, który „demonstruje” złożone procesy. Nowa aktualizacja umożliwia chatbotowi tworzenie interaktywnych wizualizacji dynamicznych bezpośrednio w interfejsie czatu, pokonując ograniczenia obrazów statycznych.
Od statycznych obrazów po dynamiczne symulacje
Wcześniej, gdy użytkownicy prosili Gemini o wizualizację koncepcji, sztuczna inteligencja polegała na swoich możliwościach generowania obrazu, aby stworzyć pojedynczy nieruchomy obraz. Jest to przydatne do celów artystycznych, ale statyka często nie wyjaśnia, w jaki sposób obiekty poruszają się, zmieniają lub funkcjonują w czasie.
Dzięki nowej funkcji Gemini może tworzyć symulacje, które użytkownicy mogą kontrolować. Zamiast tylko patrzeć na zdjęcie, użytkownicy mogą z nim wchodzić w interakcję. Dzieje się to według następującego algorytmu:
1. Użytkownik prosi Gemini o „pokazanie” lub „pomoc w wizualizacji” konkretnego tematu.
2. Na czacie pojawia się przycisk z napisem „pokaż wizualizację” (pokaż mi wizualizację ).
3. Po kliknięciu przycisku generowany jest dynamiczny, interaktywny model.
Praktyczna funkcjonalność: ruchome części i elementy sterujące
Pierwsze testy funkcjonalności pokazują, że wizualizacje te to nie tylko proste animacje, ale modele funkcjonalne, których parametry mogą być kontrolowane przez użytkownika.
Na przykład podczas wizualizacji mechaniki nieba (takiej jak orbita Księżyca wokół Ziemi) narzędzie udostępnia suwaki umożliwiające dostosowanie prędkości orbity i zmianę kąta widzenia. Podobnie podczas wyjaśniania procesów mechanicznych (takich jak wewnętrzne działanie silnika samochodowego) interfejs umożliwia uruchamianie animacji lub ręczne przewijanie każdego etapu cyklu.
Ta funkcja przekształca sztuczną inteligencję z pasywnego obiektu w aktywne narzędzie edukacyjne, dzięki czemu jest znacznie skuteczniejsza w wyjaśnianiu fizyki, inżynierii i biologii.
Krajobraz rywalizacji: Bliźnięta kontra Claude
Google nie jest pierwszym, który podąża w tym kierunku. W marcu firma Anthropic wprowadziła podobne możliwości swojej sztucznej inteligencji Claude, która również zaimponowała użytkownikom możliwością wizualizacji złożonych pomysłów.
Istnieje jednak między nimi zauważalna luka funkcjonalna:
– Claude obecnie pozwala użytkownikom zapisywać utworzone wizualizacje do późniejszego wykorzystania.
– Gemini nie posiada jeszcze mechanizmu zapisywania lub eksportowania tych interaktywnych symulacji.
W miarę nasilania się wyścigu o „multimodalną” sztuczną inteligencję – sztuczną inteligencję zdolną do przetwarzania i tworzenia tekstu, obrazów, wideo i danych interaktywnych – zdolność do przechowywania i przywracania tych złożonych pomocy wizualnych prawdopodobnie stanie się kluczowym czynnikiem konkurencyjności.
Dostępność i wymagania techniczne
Wdrażanie tej funkcji jest obecnie na całym świecie, ale istnieją pewne ograniczenia, o których należy pamiętać:
– Wymagania dotyczące modelu: Wizualizacje powstają wyłącznie przy wykorzystaniu modelu Gemini Pro.
– Ograniczenia konta: funkcja jest obecnie niedostępna w przypadku kont Google Workspace i Education.
Chociaż ta funkcja stanowi znaczący krok w kierunku bardziej intuicyjnego uczenia się za pomocą sztucznej inteligencji, jej długoterminowa użyteczność będzie zależała od tego, czy Google będzie w stanie zwiększyć złożoność swoich modeli i dodać możliwość zapisywania tych interaktywnych sesji.
Podsumowując: nowa interaktywna funkcja Google przekształca Gemini z generatora tekstu i obrazów w pełnoprawne narzędzie do modelowania, chociaż obecnie pozostaje nieco w tyle za konkurencją, jeśli chodzi o zarządzanie plikami i przechowywanie danych.














































