Twórcy sztucznej inteligencji od dawna próbują przeniknąć do rdzenia PDA, oferując usługę, która jest inteligentna, łatwa w obsłudze i zawsze dostępna. Gemini Live, ogłoszone na konferencji Made by Google na początku tego tygodnia, to nowa próba Google zmierzająca do osiągnięcia właśnie tego celu, dlatego dałem tej sztucznej inteligencji 24-godzinny okres próbny, aby przekonać się, jak blisko okazało się jej przydatność.
Chociaż nie jestem przyzwyczajona do bezpośrednich rozmów z asystentami AI poza proszeniem ich o ustawienie timera podczas gotowania, chciałam zobaczyć, jakie korzyści daje otwarta rozmowa z asystentem takim jak Gemini. Po tym dniu testów mam przynajmniej pewność, że warto rozmawiać w ten sposób z AI, nawet jeśli w tej chwili nie mam zaufania do niektórych odpowiedzi, jakich udziela.
Chociaż moje eksperymenty z Gemini Live nie były formalnym sprawdzianem jego umiejętności, zakres pytań, które mu zadawałem, dał nam dobre wyobrażenie o tym, w czym był dobry, a w czym nie. Jestem zatem pewien, że w mojej ocenie Gemini Live będzie dobrym dodatkiem do pakietu Gemini i być może wystarczającym powodem, aby przekonać niektórych bezpłatnych użytkowników do przejścia na płatnych użytkowników Gemini Advanced za 20 dolarów miesięcznie. Nawet jeśli program nie osiągnął jeszcze wszystkich swoich celów.
Czwartkowe popołudnie – przygotowanie
Gemini Live jest częścią subskrypcji Gemini Advanced, ale mimo że jest w fazie wdrażania, gdy piszę ten artykuł, nie jest jeszcze dostępna dla wszystkich użytkowników. Na szczęście miałem Google Pixel 9 Pro XL, aby go wypróbować. Jeśli chcesz dowiedzieć się więcej o telefonie, zapoznaj się z naszą praktyczną recenzją Google Pixel 9 Pro i Pro XL, w której skupimy się wyłącznie na Gemini Live.
Innym problemem jest to, że aby móc z niego korzystać, obecnie musisz ustawić język Gemini na angielski (USA). Na szczęście nawet po wykonaniu tej czynności nadal mogłem wybrać spośród dziesięciu oferowanych głos brytyjski do rozmowy z Gemini, zwany „Capella”. Wszyscy brzmią zupełnie normalnie, różnią się jedynie poziomem entuzjazmu i tonem głosu. Nawet gdy zaczniesz zadawać pytania, rzadko zdarza się, że popełnisz błąd lub dziwnie sformułowane zdanie.
Czwartkowy wieczór – powrót do domu
Po skonfigurowaniu wszystkiego moją pierwszą dużą interakcją z Gemini Chat było zapytanie go o drogę do domu. Gemini Live początkowo nie poinformowało mnie, co znalazło, gdy podałem wybrany środek transportu i potwierdziłem przystanki, pomiędzy którymi chcę jechać. Po długim oczekiwaniu poprosiłem go, aby faktycznie powiedział mi, co znalazł i opisał trasę.
Prawdopodobnie wróciłbym do domu tą samą drogą. Jednak podróż wcale nie zapowiadała się gładko. Gemini błędnie zidentyfikował linię kolejową i stację, zapomniał zauważyć, że jedna z wprowadzonych zmian wymagała technicznie przejazdu między dwiema stacjami, a potem wydawało się, że wymyślił pociąg z powietrza. Co jest dość dziwne, ponieważ Gemini twierdziło, że sprawdziło stronę internetową TfL w poszukiwaniu informacji.
Jest to problem związany z podstawowym modelem sztucznej inteligencji, a nie z Gemini Live, ale obecność głosu przypominającego głos autorytetu (nie mniej z brytyjskim akcentem) sugeruje, że trasa może doprowadzić osobę mniej zaznajomioną z londyńskim transportem publicznym do zaginiony. Wygląda na to, że w przypadku tego typu rzeczy lepiej będzie trzymać się Map Google.
Piątkowy poranek – briefing prasowy
Następnego dnia poprosiłem Jiminy’ego, aby przekazał mi najświeższe wiadomości dnia, gdy przygotowywałem się do pracy. Za pomocą prostych gestów był mi w stanie wiele powiedzieć o zmieniających się prezenterach Good Morning Britain i This Morning, a także krótką wzmiankę o niedawnym pchnięciu nożem na Leicester Square. Ale kiedy poprosiłem go, aby informował mnie o technologii, sytuacja stała się jeszcze dziwniejsza.
Google Gemini początkowo powiedział mi, że Microsoft ogłosił Surface Duo 3 — urządzenie, które nie zostało potwierdzone, a o jego wycofaniu krążą plotki od miesięcy. PS5 Slim jest prawdziwy, ale pojawił się jesienią ubiegłego roku i możemy założyć, że odnosi się do awarii Crowdstrike z zeszłego miesiąca w związku z niedawnym komentarzem
Następnie poprosiłem Gemini Live, aby skupił się na plotkach na temat iPhone’a, ale początkowo jego odpowiedzi dotyczyły aktualnie dostępnej linii iPhone’a 15. Po dalszych naleganiach opisał niektóre plotki na temat aparatu iPhone’a 16, ale niezbyt szczegółowo.
Piątkowe popołudnie – przewodnik browarniczy
Po kilku godzinach pracy przyszedł czas na przerwę kawową, więc poprosiłem Gemini Live, aby przeprowadził mnie przez proces parzenia kawy V60.
Liczyłem na instrukcje krok po kroku od sztucznej inteligencji, ale problem polega na tym, że trzeba stale pytać lub przerywać Gemini Live, aby zmusić go do podawania odpowiedzi w formie kroków. Udało mu się jednak przerwać rozmowę i udzielić odpowiedzi, które wydawały się przekonujące, mimo że z transkrypcji wynikało, że początkowo nie słyszał moich podpowiedzi.
Aplikacja Gemini Live była mieszaniną informacji. Podał kilka wskazówek, które przypadną do gustu entuzjastom, np. filtrowanie wody przed jej zagotowaniem. Pomimo swojej prostoty, z ogólnego przepisu powstał kubek nadający się do picia. Ale aplikacja Gemini Live podała mi również sugerowaną wagę kawy w łyżkach ziaren zamiast w gramach lub uncjach, co nie jest typową miarą podczas parzenia kawy. Ale dzięki dodatkowym wskazówkom udało mi się uzyskać kwotę w gramach.
Piątkowy lunch – rozmowa o walce
Kiedy nadarzyła się okazja podczas lunchu, odbyłem krótką pogawędkę z Gemini Live na temat Street Fighter 6, gry, w którą obecnie dużo gram. Strona poprawnie wspomniała o tegorocznym mistrzu Evo 2024 w SF6, a także o jego przeciwniku, ale znowu nie podała zbyt wielu początkowych szczegółów.
Przeniosłem rozmowę na porady trenerskie (mam tendencję do nadmiernego polegania na niektórych ruchach), gdzie otrzymałem sugestie, jak przemyśleć swoje podejście do meczu. Łatwiej powiedzieć niż zrobić, gdy przeciwnik rzuca w ciebie kulami ognia, ale mimo wszystko była to rozsądna rada.
Próbowałem też uzyskać wskazówki, gdzie znaleźć spotkania osobiste, ale to nie do końca zadziałało. Próbowałem sprawdzić szczegóły na oficjalnej stronie internetowej, ale odkryłem, że nie ma na niej niczego poza oficjalnymi turniejami Capcom. Następnie znalazła pobliską grupę na Facebooku, ale nie mogła podać mi linku, aby uzyskać do niej dostęp w dalszej części tekstu.
Piątkowe popołudnie – wskazówki dotyczące pisania
Jako ostatnie zadanie dla Bliźniąt zdecydowałem się porozmawiać o MATA i nie, nie mówimy o Lamie 3. Poprosiłem go, aby pomógł mi przygotować wprowadzenie do tego konkretnego artykułu.
Spotkawszy się z Gemini, które nie podały mi wielu szczegółów w moich poprzednich odpowiedziach, byłem zaskoczony, jak chętnie Gemini sugerowały konkretne formuły. Kiedy poprosiłem go o podanie dodatkowych informacji lub zmianę punktu widzenia, odpowiedział w sensowny sposób. Jak z dumą zauważył Google podczas swojej wersji demonstracyjnej Made by Google, Gemini Live jest w stanie poradzić sobie z przerwami i dostosować swoje odpowiedzi na bieżąco.
To było najlepsze, co kiedykolwiek czułem w Gemini Live, gdzie powtarzanie na głos myśli wydaje się całkowicie naturalne, nawet gdy mówisz falą do telefonu. Na koniec napisałem od zera wstęp do tego artykułu. Ale może zobaczysz echa jego ostatniej sugestii, jeśli przewiniesz w górę i porównasz ją z tym, co mi dał.
Google Gemini Live: przemyślenia końcowe
Można by z tego artykułu wywnioskować, że nie cenię Gemini Live, ale nie jest to do końca prawdą. Moja najgorsza krytyka dotyczy działającego modelu Gemini Advanced, ponieważ wydawało się, że w wielu scenariuszach testowych nie rozumiał on, czego szukał. Co zabawne, niedawne starcie Gemini kontra Gemini Advanced pokazało, że lepiej byłoby, gdybym trzymał się podstawowego programu Gemini.
Tymczasem sama aplikacja Gemini Live robiła wrażenie. A możliwość prowadzenia ciągłej rozmowy z chatbotem, pod warunkiem, że chcesz ją wyjaśnić i przerwać, jeśli coś pójdzie nie tak, wydaje się znacznie lepszym sposobem interakcji niż za pomocą tekstu lub obrazów. Możesz zadawać pytania uzupełniające zwykłym asystentom cyfrowym, ale nadal nie jest to tak płynne, jak udowodniło to Gemini Live. Ta łatwość sprawia, że jest praktyczny, pomaga odpowiadać na pytania i udzielać instrukcji nie tylko bez użycia rąk, ale także bez oczu, co pozwala skupić się na czymś innym podczas rozmowy z chatbotem.
Jednak pozostaje zasadnicze pytanie, jak to wypada w porównaniu z nadchodzącym ChatGPT Voice, zwłaszcza że Gemini Live opiera się na interpretowaniu mowy jako tekstu przed udzieleniem odpowiedzi, podczas gdy ChatGPT Voice może bezpośrednio przetwarzać mowę. Jednak nawet przy zwykłych zastrzeżeniach dotyczących sztucznej inteligencji wydaje się, że Google jest na dobrej drodze w dążeniu do spełnienia marzenia o urządzeniu PDA.
Więcej z przewodnika Toma
„Zła entuzjasta podróży. Irytująco skromny ćpun internetu. Nieprzepraszający alkoholiczek”.