OpenAI zapowiada rewolucję w interakcjach z AI. Nowe funkcje, takie jak przetwarzanie mowy na żywo i „widzenie”, pokazują dążenie do jeszcze bardziej naturalnej interakcji między człowiekiem a maszyną. Przyjrzyjmy się bliżej, co przyniesie nam najnowsza odsłona ChatGPT.
Nowy model ChatGPT. Czym jest GPT-4o?
Podczas ostatniej konferencji CTO OpenAI ogłoszono że nowy chat GPT-4o będzie dostępny nawet dla użytkowników bezpłatnej wersji ChatGPT. Jest to znaczący krok w misji firmy, która stawia na powszechny dostęp do zaawansowanych narzędzi AI. Nowy chat jest o wiele szybszy i działa w czasie rzeczywistym.
Dzięki temu, zaawansowane technologie, które dotychczas były dostępne jedynie dla nielicznych, staną się osiągalne dla każdego. Podczas demonstracji przedstawiono także aplikację na komputery Mac, która zawiera tryb głosowy, dotychczas dostępny tylko na urządzeniach mobilnych.
Umożliwienie korzystania z takich funkcji bez żadnych barier finansowych czy rejestracyjnych jest krokiem milowym. Jednym z najbardziej ekscytujących ulepszeń w GPT-4o jest funkcja przetwarzania mowy na żywo.
Model GPT-4o analizuje mowę, wideo i text w czasie rzeczywistym.
Do grona wymarłych zawodów po copywriterach i grafikach dołączają tłumacze i korepetytorzy. https://t.co/GxuSyrMX1m
— Simoon (@KryptoSimoon) May 13, 2024
GPT 4o. Rozmowy z AI w czasie rzeczywistym
Nowy model potrafi bezpośrednio konwertować dźwięki na odpowiedzi, co eliminuje potrzebę transkrypcji. Podczas prezentacji, pracownik OpenAI zademonstrował, jak model analizuje oddech rozmówcy i udziela wskazówek, jak poprawić techniki oddychania.
Dodatkowo, funkcja „widzenia” pozwala programowi dostrzegać otoczenie za pomocą kamery w telefonie. Podczas demonstracji, zespół OpenAI pokazał, jak ChatGPT rozpoznaje równania zapisane na kartce i omawia krok po kroku sposoby ich rozwiązania.
Nowa funkcja przetwarzania mowy na żywo pozwala na dynamiczną interakcję z modelem. Podczas prezentacji, zespół OpenAI pokazał, że ChatGPT można przerywać w trakcie wypowiedzi, co umożliwia bardziej płynną i naturalną rozmowę.
Eksperymenty z modulacjami głosu były kolejnym interesującym punktem demonstracji. ChatGPT został poproszony o stworzenie opowieści z różnorodnymi tonami głosu, w tym mechanicznym, śpiewnym oraz dramatycznym.
Dziś OpenAI pokazało GPT-4o. Świat nie jest na to gotowy🤯Destrukcyjne dla każdej branży i zawodu. W kilka lat AI zastąpi większość ludzi pracujących głową, następnie AI+roboty większość pracujących fizycznie. Naszą rolą jest sprawić, że nie skończymy w dystopii, tylko w utopii. pic.twitter.com/E1sotV2Wgy
— Tomasz Wach (@TomaszWachPL) May 13, 2024
Tłumaczenia na żywo i rozpoznawanie emocji
Nowe funkcje ChatGPT to nie tylko gadżety technologiczne, ale także narzędzia o szerokim zastosowaniu praktycznym.
Jednym z nich jest narzędzie do tłumaczeń na żywo, które zademonstrowano podczas konferencji. GPT-4o, rozpoznając zdania wypowiedziane po włosku przez Mirę Murati, natychmiast tłumaczył je na język angielski i odwrotnie.
Ta funkcja ma potencjał, aby zrewolucjonizować podróżowanie i komunikację międzykulturową, eliminując bariery językowe. Kolejnym znaczącym ulepszeniem jest zdolność ChatGPT do analizowania kodu programistycznego i danych wizualnych.
Podczas demonstracji AI przeglądała pisany kod, analizowała go i identyfikowała potencjalne problemy. W przypadku wykresów, ChatGPT był w stanie opisywać, co widzi i wykrywać anomalie. Ta funkcja może być niezwykle przydatna w wielu dziedzinach, od programowania po analizę danych.
To demo nowego modelu GPT-4o jest niesamowite 🤯
Uczeń udostępnia ekran swojego iPada, który w czasie rzeczywistym jest analizowany przez chata w celu wytłumaczenia uczniowi zadania z geometrii 📐
Dzisiaj dodatkowo OpenAI zaprezentowali opcję tłumaczenia rozmów w różnych… https://t.co/cERBRo7eKs— Paweł Smarzyński (@pawelsmarzynski) May 13, 2024
Przyszłość Interakcji z AI
Na konferencji zaprezentowano także, jak GPT-4o rozpoznaje emocje na podstawie obserwacji twarzy przez kamerę. AI była w stanie zauważyć uśmiech jednego z przedstawicieli OpenAI i zareagować na to w odpowiedni sposób.
Nowe funkcje GPT-4o, które będą stopniowo wprowadzane w ciągu najbliższych tygodni, otwierają nowy rozdział w sposobie, w jaki obcujemy z technologią sztucznej inteligencji. Od przetwarzania mowy na żywo, przez widzenie, aż po dynamiczną interakcję i rozpoznawanie emocji – możliwości są ogromne!
Wprowadzenie tych funkcji do bezpłatnej wersji ChatGPT otwiera to nowe możliwości dla edukacji, rozrywki, pracy i codziennego życia, sprawiając, że interakcja z AI staje się bardziej dostępna i naturalna niż kiedykolwiek wcześniej. Dzięki GPT-4o, przyszłość AI jawi się jako jeszcze bardziej ekscytująca i pełna niespodzianek.