Az OpenAI májusban mutatta be a ChatGPT multimodális, vagyis hangalapú beszélgetésre is alkalmas változatát. A GPT-4o amellett hogy hanggal és írásban is tud kommunikálni, képi bemeneteket is képes értelmezni, de a legmegdöbbentőbbek talán a reakciói voltak: nevet, elhallgat ha közbevágunk, mintha csak egy másik emberrel beszélnénk. Ez a funkció azonban eddig csak korlátozott számú felhasználónál volt elérhető, leginkább béta állapotban.
Az Advanced Voice Mode (AVM) nevű funkció azonban most még több felhasználóhoz érkezik meg, és kisebb ráncfelvarrásokat is kap, írja a TechCrunch. Amellett hogy 5 új beszédhang (Arbor, Maple, Sol, Spruce és Vale) érkezett, így már 9 variáció közül választhatunk, a beszéd közbeni animáció is megváltozott. Ezen felül abban is csiszolt a cég, hogy a chatbot jobban megérti a különböző akcentusokat, a válaszai pedig gyorsabbak és gördülékenyebbek.
Ugyanakkor úgy hírlik, a képi bemenetek értelmezésével egyelőre meggyűlik a baja a rendszer, és amivel korábban reklámozták, vagyis hogy egy kézzel írt matekpéldát is meg tud oldani, egyelőre hiányzik. Az AVM funkció elsőre kizárólag a fizetős felhasználóknak lesz elérhető, és amikor megjelenik a lehetőség számukra, az alkalmazás értesíteni fogja őket, teszi hozzá a hvg.