GPT-4 mislykkes i Turing-testen: utfordringer gjenstår i feltet for intelligent samtale

ChatGPT, superstjernen innen kunstig intelligens, har blitt møtt med et spørsmål mens den fortsetter å bevege seg fremover: Har den møtt Turing-teststandarden for å generere utdata som ikke kan skilles fra menneskelige svar? Den siste forskningen tyder på at ChatGPT, til tross for sin utmerkede ytelse, ikke ser ut til å ha krysset den terskelen fullt ut.

To forskere ved University of California, San Diego, Cameron Jones, ekspert på språk, semantikk og maskinlæring, og Benjamin Bergen, professor i kognitiv vitenskap, stilte dette spørsmålet ved å referere til Turings arbeid for 70 år siden. Turing foreslo en prosess for å avgjøre om en maskin kunne oppnå et nivå av intelligens og samtaleevne tilstrekkelig til å lure andre til å tro at den var menneskelig.

Rapporten deres har tittelen "Består GPT-4 Turing-testen?" Den finnes på arXiv preprint-serveren. For studien samlet de 650 deltakere for å spille 1400 «spill» der deltakerne hadde en kort samtale med et annet menneske eller GPT-modell og ble bedt om å finne ut hvem de snakket med.

Det forskerne fant var bemerkelsesverdig. GPT-4-modellen lurte deltakerne 41 prosent av tiden, mens GPT-3.5 lurte dem bare 5 til 14 prosent av gangene. Interessant nok lyktes mennesker bare i å overbevise deltakerne om at de ikke var maskiner i 63 prosent av forsøkene.

«Vi fant ingen bevis for at GPT-4 besto Turing-testen,» konkluderte forskerne. Imidlertid bemerker de at Turing-testen fortsatt har verdi for å vurdere effekten av maskinsamtaler, som et rammeverk for å måle jevne sosiale interaksjoner og bedrag, og for å forstå menneskelige strategier for å tilpasse seg disse enhetene.

Men de advarer også om at chatbots i mange tilfeller fortsatt vil kunne kommunisere på en overbevisende måte. "Suksessraten på 41 prosent antyder at AI-modeller allerede kan ha evnen til å lure, spesielt i situasjoner der mennesker er mindre oppmerksomme på muligheten for at de kanskje ikke snakker med et menneske," bemerker forskerne. AI-modeller som robust etterligner mennesker kan ha brede sosiale og økonomiske implikasjoner."

Forskerne observerte at deltakere som korrekt identifiserte AI med mennesker, fokuserte på flere faktorer. En modell som er for formell eller for uformell vekker mistanker. Hvis uttrykket deres er for ordrikt eller for kortfattet, hvis grammatikken eller tegnsettingen deres er uvanlig god eller "uoverbevisende" dårlig, vil det også være en nøkkelfaktor for å avgjøre om deltakerne samhandler med mennesker eller maskiner. I tillegg var deltakerne følsomme for svar som hørtes for generiske ut.

Forskerne antyder at sporing av AI-modeller vil bli stadig viktigere ettersom de blir mer flytende og absorberer flere menneskelignende særheter. "Å identifisere faktorer som fører til bedrag og strategier for å dempe det vil bli stadig viktigere," sa de. Studien avslører at feltet intelligent samtale fortsatt står overfor utfordringer, men gir også nyttig innsikt i hvordan AI-modeller kan forbedres.