Gemini

Gemini 1.5 - nadchodzi lewy sierpowy od Google w kwestii AI

Łukasz Musialik | 01.03, 22:00

Google nie zwalnia tempa w wyścigu o dominację w dziedzinie sztucznej inteligencji. Po zaledwie dwóch miesiącach od wprowadzenia na rynek swojego najnowocześniejszego modelu AI, Gemini 1.0, firma zaprezentowała jego następcę — Gemini 1.5. To nowa generacja modelu multimodalnego, który potrafi rozumieć i generować treści w różnych formatach, takich jak tekst i obrazy.

Potrafi nie tylko tworzyć, ale także niejako zobaczyć nadesłane mu zdjęcia, przesyłane wideo w formie linku (do godziny czasu), a także wygenerować obrazy, podobnie jak ma to miejsce w przypadku innych znanych narzędzi — m.in. DALL-E 3, czy Midjourney. Trzeba jednak zauważyć, że większość tych funkcji nie jest jeszcze dostępna dla użytkowników w Polsce. Po wpisaniu pożądanej frazy Gemini zwyczajnie nie zrozumie, o co nam chodzi lub napisze, że nie jest w stanie tego zrobić lub wykonać. 

Dalsza część tekstu pod wideo

Niemniej możliwości i funkcje, jakie może teraz sprawdzić Amerykanin i Brytyjczyk, będą niebawem dostępne i w naszym kraju. To, co jednak wyróżnia 1.5 od poprzedniej wersji, to jego wydajność w procesie przetwarzania danych. W przypadku Pro, po otrzymaniu 402-stonicowej transkrypcji z misji Apollo 11, był w stanie wyciągnąć wnioski, podać ważne szczegóły dotyczące wydarzeń, zrozumieć kontekst rozmowy między astronautami a obsługą naziemną, a także podać wiele innych ciekawych szczegółów. Jest więc bardziej skalowalny, dzięki zastosowaniu nowej architektury Mixture-of-Experts (MoE). Czy to oznacza, że Google zadał decydujący cios konkurencji w walce o przewagę w AI? Nie. To dopiero lewy sierpowy, ale nie nokaut. 

Gemini 1.0 - wielki krok dla AI, mały dla Google

Gemini 1.0 był bez wątpienia imponującym osiągnięciem w dziedzinie sztucznej inteligencji. Model ten był wynikiem wieloletniej współpracy między zespołami Google DeepMind i Google Research, a także wykorzystania ogromnej ilości danych i mocy obliczeniowej. Gemini 1.0 był w stanie nie tylko analizować i przetwarzać różne rodzaje informacji, ale także łączyć je w sposób płynny i naturalny. Dzięki temu model ten mógł wykonywać zadania, które były dotąd trudne lub niemożliwe dla innych modeli AI, takie jak opisywanie odręcznych notatek, odszyfrowywanie złożonych diagramów czy tworzenie oryginalnych treści multimodalnych.

Gemini 1.0 był dostępny w trzech wersjach: Ultra, Pro i Nano, które różniły się funkcjonalnością, wydajnością i zastosowaniem. Wersja Ultra była największa i najpotężniejsza, ale też najdroższa i najbardziej wymagająca pod względem zasobów. Wersja Pro była zoptymalizowana pod kątem skalowania i szybkości, a wersja Nano była najmniejsza i najbardziej wydajna, nadająca się idealnie do integracji z urządzeniami mobilnymi. Google udostępnił model Gemini 1.0 zarówno dla konsumentów, zastępując usługę Google Bard, jak i dla programistów i klientów biznesowych, poprzez interfejs Gemini API w usługach Google AI Studio i Google Cloud Vertex AI.

Jednak pomimo tych zalet, Gemini 1.0 nie był pozbawiony wad i ograniczeń. Po pierwsze, model ten był bardzo kosztowny i skomplikowany, pod względem skali i złożoność, która była olbrzymia. Po drugie, model ten był oparty na ujednoliconym podejściu do przetwarzania danych, co oznaczało, że nie był w stanie dostosować się do specyficznych potrzeb i zadań. Miał też problem ze rozumieniem długiego i szerokiego kontekstu, co ograniczało jego zdolność do generowania spójnych i logicznych treści.

No i po trzecie (chyba najważniejsze) model ten był narażony na ryzyko etyczne i bezpieczeństwo, związane z możliwością nadużycia lub manipulacji jego wynikami. Bez większych problemów mógł wygenerować treści o podtekście rasistowskim, a tzw. fake newsy, które zresztą pisał wyśmienicie i to nie dlatego, że był o to proszony przez użytkownika, a przez to, że był podatny mocno na efekt halucynacji, w którym model wymyśla i tworzy różne nietrzymające się kupy informacje.

Zresztą do dziś nie jest idealnie, co kilka dni temu potwierdził sam Elon Musk, publikując na swoim profilu na X zdjęcie z przykładowej rozmowy — podtekst rasistowski. Ale dajmy mu czas, ChatGPT też nie jest pod tym względem doskonały. Zresztą proste komendy i tak nie pomogą. Taki model trzeba niejako „podejść”, zadając kilka ogólnikowych pytań, aby otrzymać pozbawioną etyki wiadomość. 

Gemini 1.5 - nowa jakość w AI?

Gemini

Gemini 1.5 jest odpowiedzią Google na wyzwania, z jakimi nie mógł poradzić sobie poprzednik. Model ten jest nie tylko ulepszoną wersją Gemini 1.0, ale także zapewnia zupełnie nowe podejście do tworzenia i wykorzystywania modeli AI. Gemini 1.5 korzysta z nowej architektury Mixture-of-Experts (MoE), która polega na podziale modelu na wiele mniejszych i wyspecjalizowanych „podmodeli”, zwanych ekspertami. Każdy ekspert jest odpowiedzialny za obsługę określonego segmentu danych lub zadań, a model główny decyduje, który ekspert ma być aktywowany w zależności od napływających informacji. Dzięki temu Gemini 1.5 jest w stanie dynamicznie dostosowywać się do różnych sytuacji i wymagań, a także oszczędzać zasoby i czas.

Gemini 1.5 ma być również znacznie lepszy w rozumieniu i wykorzystywaniu kontekstu. Model ten jest w stanie przetwarzać do miliona tokenów na raz, co oznacza, że może uwzględniać znacznie więcej informacji z różnych źródeł i modalności. To pozwala mu na tworzenie bardziej złożonych i bogatych treści, które są spójne i logiczne. 

Gemini 1.5 jest dostępny w dwóch wersjach: Pro i Ultra. Wersja Pro jest średniej wielkości modelem multimodalnym, który ma zapewniać jakość porównywalną do wersji Ultra z Gemini 1.0, przy znacznie mniejszym zużyciu mocy obliczeniowej. Wersja Ultra jest największym i najbardziej zaawansowanym modelem, który ma oferować najwyższą wydajność i największe możliwości. Google udostępnia model Gemini 1.5 Pro we wczesnym dostępie dla programistów i klientów korporacyjnych, a w przyszłości planuje go rozszerzyć na inne usługi i platformy.

  • Mieszanka ekspertów (MoE): Gemini 1.5 wykorzystuje nowe podejście oparte na mieszance ekspertów. W praktyce oznacza to, że zapytania kierowane do modelu są przekazywane do grupy mniejszych sieci neuronowych, co przyspiesza odpowiedzi i poprawia ich jakość.
  • Skalowalność: Model Gemini 1.5 Pro został zoptymalizowany pod kątem skalowania w szerokim zakresie zadań. To średniej wielkości, multimodalny model sztucznej inteligencji, który sprawdza się w różnych kontekstach.
  • Okno kontekstu: Przed wprowadzeniem Gemini 1.5 największe okno kontekstu dla publicznie dostępnego dużego modelu językowego wynosiło 200 000 tokenów. Teraz, dzięki eksperymentalnemu oknu kontekstu o 1 milionie tokenów, model może analizować znacznie większe ilości tekstu. To otwiera nowe możliwości, takie jak przetwarzanie dużych plików PDF, repozytoriów kodu czy długich nagrań wideo.
  • Wielomodalność: Gemini 1.5 Pro potrafi analizować różne rodzaje danych, łącząc je w spójne odpowiedzi. Możesz przesyłać wiele plików, takich jak PDF-y, i zadawać pytania, a model wykorzysta większe okno kontekstu, aby dostarczyć spójne, trafne i użyteczne odpowiedzi.
  • Zastosowania: Gemini 1.5 Pro może przetwarzać ponad 700 000 słów, godzinę wideo, 11 godzin audio i bazy kodów zawierające ponad 30 000 linii kodu. To narzędzie, które może pomóc programistom w analizie kodu źródłowego, przetwarzaniu dokumentów i wielu innych zastosowaniach.

Czy Gemini 1.5 zmieni świat AI?

Gemini 1.5 jest niewątpliwie imponującym osiągnięciem Google, który pokazuje, że firma nie spoczywa na laurach i nieustannie dąży do innowacji i doskonali się w dziedzinie AI. Model ten stanowi znaczący krok naprzód w rozwoju sztucznej inteligencji, która ma potencjał do zmiany sposobu, w jaki ludzie i maszyny komunikują się i współpracują. Gemini 1.5 może mieć wiele zastosowań i korzyści, zarówno dla konsumentów, jak i dla biznesu, takich jak ułatwienie dostępu do informacji, poprawa jakości i efektywności usług, wspieranie kreatywności i uczenia się, czy rozwiązywanie złożonych problemów.

Nie jest to jednak model doskonały, ponieważ wciąż potraci generować błędne, niepożądane i nieetyczne treści Wymaga więc dużych nakładów i zasobów, zarówno do trenowania, jak i do wdrażania, jak również odpowiedzialnego nadzoru ze strony ludzi, którzy go tworzą i używają. Gemini 1.5 jest więc tylko i aż lewym sierpowym dla branży AI, która rozwija się bardzo dynamicznie. Zaskoczył, może nieco „zranił” konkurencję, ale nie był to nokaut, który zakończyłby walkę o AI. Ta wciąż trwa, a po tym co pokazała Sora, może być trudno dogonić rozpędzone OpenAI. 

Łukasz Musialik Strona autora
Pasjonat gier od samego dzieciństwa, kiedy to swoją pierwszą konsolę dostał od rodziców. Od tamtej pory zafascynowany grami i ich światem, ponieważ jako dorosły uważa, że to nie tylko rozrywka, ale także sztuka, która może nas uczyć, inspirować i poruszać emocje. Nieustannie poszerza swoją wiedzę i doświadczenie w dziedzinie gier i konsol, aby móc dostarczać innym jak najbardziej wartościowe treści.
cropper