Nowa wersja Chatu GPT pozwala na tłumaczenie rozmów w czasie rzeczywistym
OpenAI zademonstrowało swój nowy model GPT-4o wykonujący tłumaczenia (ale także analizujący dźwięk, obraz i tekst) w czasie rzeczywistym. Twórce deklarują, że nowa wersja Chatu GPT reaguje na sygnały audio w zaledwie 232 milisekund. To mniej więcej tyle, ile na reakcję potrzebują ludzie. Na tym jednak nie koniec – najnowsza wersja Chatbota zyskała także… wzrok.
Jedną z najbardziej interesujących funkcji w najnowszej wersji GPT jest przetwarzanie mowy na żywo. ChatGPT-4o dokonuje bezpośredniej konwersji dźwięków na odpowiedzi, pomijając etap transkrypcji
W trakcie prezentacji wykorzystano Chat GPT do tłumaczenie rozmowy dwóch osób – jedna z nich posługiwała się językiem angielskim, druga włoskim. Sztuczna inteligencja tłumaczyła ich wypowiedzi natychmiast po tym, gdy przestawali mówić.
Chat GPT zyskał wzrok
Na tym jednak nie koniec. W trakcie tej samej prezentacji pokazano, jak GPT-4o „widzi” przy użyciu kamery. Jest w stanie dostrzegać i opisywać nie tylko ludzi, ale także treści – na konferencji pokazano botowi zapisane na kartce równanie, po czym przedstawił on sposób jego rozwiązania.
Ponadto pokazano także, jak Chat GPT-4o reaguje na ludzkie emocje na podstawie obserwowania osób przez kamerę, oraz jak nadaje swoim wypowiedziom inny ton (np. bardziej dramatyczny) gdy zostanie o to poproszony.