Verovatno ste se već susreli sa veštačkim glasom, a da toga niste ni bili svesni. Ranije su ti glasovi zvučali kruto, ravno i „robotski“, ali danas je tehnologija toliko napredovala da je razliku između prirodnog i računarskog govora gotovo nemoguće uočiti na prvi sluh. Sve su prisutniji: čujemo ih kada pozovemo korisničku podršku ili kada koristimo digitalne asistente. Ima ih i na društvenim mrežama.
Kako računar „uči“ da govori?
Tajna je u neuronskim mrežama
Stariji sistemi funkcionisali su na principu spajanja (konkatenacije). Snimali bi se ogromni nizovi reči i slogova jednog govornika, a zatim bi ih računar „sekao i lepio“ u rečenice. Rezultat je često zvučao neprirodno, jer mašina nije razumela prelaze između glasova.
Savremena rešenja koriste neuronske mreže, složene računarske sisteme koji svojim ustrojstvom podsećaju na ljudski mozak. Umesto prostog slaganja delova, ovi modeli uče da predvide kako bi zvučni talas trebalo da izgleda u svakom deliću sekunde.

Sistem najpre „sluša“ desetine hiljada sati govora hiljada različitih ljudi. Tokom ovog procesa samostalno uočava zakonitosti: kako se glasovi menjaju u dodiru sa drugim glasovima, gde se pravi kratak predah za uzdah i kako se visina tona menja na kraju upitne rečenice.
U novije vreme postalo je moguće i da se glas prilagodi nečijem ličnom stilu. Za svega nekoliko minuta sistem može da „ukrade“ nečiji glas, odnosno da, slušajući određenu osobu, nauči kako ona izgovara reči, gde pravi pauze, kojom brzinom govori, pa čak i sitne zvučne osobenosti poput šuštanja tokom govora.
Izazov srpskog jezika
Iako savremeni sistemi gotovo savršeno oponašaju engleski ili nemački, srpski jezik za njih i dalje predstavlja tvrd orah. Razlog leži u tome što modeli nisu u dovoljnoj meri trenirani na srpskom jeziku, pa nisu do kraja usavršeni, zbog čega se relativno lako može prepoznati da ne govori čovek, već mašina. Greške u akcentovanju, izgovoru i ritmu govora i dalje su primetne. To će se, naravno, vremenom menjati.
Postoji mnogo servisa koji mogu da pretvore tekst u govor; među najnaprednijima je ElevenLabs. Preko ovog servisa glas može zvučati ljutito, tužno ili uzbuđeno, u zavisnosti od instrukcija koje mu se zadaju.
Postoji i čitav niz drugih alata, ali za sada nijedan ne daje uverljive rezultate na srpskom jeziku. Google-ov AI Studio takođe je izuzetno moćan za generisanje govora. Iako je još uvek u beta verziji, pokazuje veoma visok kvalitet.
Gde se sve ovi glasovi koriste?
Primena je mnogo šira nego što se na prvi pogled čini. U filmskoj industriji ova tehnologija omogućava da „ožive“ glasovi glumaca koji više nisu među nama ili su znatno ostarili. Čuveni primer je glumac Mark Hamil u seriji „Mandalorac“: pošto njegov glas danas ne zvuči kao nekada, računar je analizirao stare snimke i rekonstruisao glas mladog Luka Skajvokera, gotovo identičan onom iz prvih filmova.

Pravila, etika i opasnosti
Kao i svaka moćna alatka, i ova tehnologija može biti zloupotrebljena. Danas je moguće napraviti lažni audio-snimak (poznat kao „dipfejk“), u kojem poznati političar ili čak vama bliska osoba navodno izgovara nešto što nikada nije rekla.

U većini zemalja zakon još uvek ne prati brzinu tehnološkog razvoja. Glas sam po sebi često nije zaštićen kao autorsko delo, ali se njegova zloupotreba u svrhu prevare smatra krivičnim delom.
Kako se zaštititi?
Ako dobijete sumnjiv poziv u kojem vam se čini da čujete nekoga poznatog ko od vas traži novac ili poverljive podatke, budite krajnje oprezni. Veštački glasovi ponekad imaju suptilne „kvarove“: zvuče previše čisto, bez pozadinske buke, ili prave neobične pauze usred reči. Najsigurniji način jeste da postavite pitanje na koje odgovor znate samo vi i osoba za koju se pozivalac predstavlja.
Kako prepoznati govor generisan veštačkom inteligencijom?
Iako su postali izuzetni imitatori, još uvek postoje znaci koji odaju veštačko poreklo govora.
Prvi je preterana „savršenost“. Ljudi greše, zamuckuju, uzdišu ili menjaju ritam govora u skladu sa raspoloženjem. Mašina je, nasuprot tome, često previše ujednačena, i upravo ta ujednačenost može biti signal za sumnju.
Kod dužih i složenijih rečenica računar ponekad „izgubi dah“ na pogrešnom mestu ili završi rečenicu intonacijom koja ne odgovara njenom značenju.
Međutim, to važi za sadašnji trenutak. Ostaje otvoreno pitanje da li ćemo već za nekoliko godina uopšte moći da razlikujemo veštačke glasove od ljudskih.