Polscy naukowcy zbadali ograniczenia ChatGPT
Naukowcy z PWr sprawdzili, czy ChatGPT rozumie żarty, wychwytuje błędy językowe, sarkazm i agresję, rozpoznaje spam. Poprosili program o wykonanie ponad 38 tys. zadań. Na razie wypada on gorzej niż nowoczesne wyspecjalizowane w tym programy, nie mówiąc już o ludziach – wynika z niezrecenzowanych jeszcze badań.
Jak na program, który nie był trenowany specyficznie w tym zakresie, ChatGPT i tak wypadł całkiem nieźle
– komentuje jeden z autorów badania dr Jan Kocoń.
Język naturalny w komunikacji z komputerem
Ludzie przyzwyczaili się już, że w komunikacji z komputerem używają formularzy, komend czy słów kluczowych zamiast języka naturalnego. A głównym celem opracowania ChatGPT miało być wykonanie kroku w stronę naturalnej interakcji człowiek-komputer w formie konwersacji. Według nas ChatGPT jest w tym zakresie czymś rewolucyjnym
– wyjaśnia dr Jan Kocoń z Politechniki Wrocławskiej.
ChatGPT szybko zaczął być jednak stosowany do celów, o których nie śniło się jego twórcom: rozwiązywania bardzo różnych problemów, które często wymagają świetnego rozumienia języka i znajomości kontekstów towarzyszących używaniu języka. Pytanie więc, jak dobrze ChatGPT orientuje się w tych obszarach.
Naukowcy z zespołu CLARIN-PL zadali sztucznej inteligencji ponad 38 tys. pytań. Chcieli porównać, jak ChatGPT prezentuje się na tle najlepszych dostępnych na rynku modeli do automatycznej analizy języka. Chodzi choćby o systemy do analizy tzw. sentymentu. To programy, które np. firmom marketingowym pozwalają analizować, jakie emocje wywołuje w sieci dana informacja, usługa czy marka.
We wszystkich z 25 badanych obszarów chatbot od OpenAI znacznie ustępował swojej konkurencji. Aktualnie najlepsze modele przetwarzania języka naturalnego SOTA (state-of-the-art) znacznie lepiej wychwytywały poprawność gramatyczną, emocje użytkowników, znaczenia słów, trafniej odpowiadały na pytania i rozwiązywały zadania matematyczne. Mimo to, wyniki osiągane przez ChatGPT są imponujące, biorąc pod uwagę fakt, że dla większości testowanych zadań model nie był wcześniej trenowany bezpośrednio do ich rozwiązywania
– komentują naukowcy w przesłanym PAP komunikacie o badaniach.
MD