Kako mašine uče da govore kao ljudi?

By glavni urednik April 7, 2026

Verovatno ste se već susreli sa veštačkim glasom, a da toga niste ni bili svesni. Ranije su ti glasovi zvučali kruto, ravno i „robotski“, ali danas je tehnologija toliko napredovala da je razliku između prirodnog i računarskog govora gotovo nemoguće uočiti. Sve su prisutniji: čujemo ih kada pozovemo korisničku podršku ili kada koristimo digitalne asistente. Ima ih i na društvenim mrežama.

Kako računar „uči“ da govori?

Tajna je u neuronskim mrežama

Stariji sistemi funkcionisali su na principu spajanja (konkatenacije). Snimali bi se ogromni nizovi reči i slogova jednog govornika, a zatim bi ih računar „sekao i lepio“ u rečenice. Rezultat je zvučao neprirodno, jer mašina nije razumela prelaze između glasova.

Savremena rešenja koriste neuronske mreže, složene računarske sisteme koji svojim ustrojstvom podsećaju na ljudski mozak. Umesto prostog slaganja delova, ovi modeli uče da predvide kako bi zvučni talas trebalo da izgleda u svakom deliću sekunde.

Sistem najpre „sluša“ desetine hiljada sati govora hiljada različitih ljudi. Tokom slušanja on samostalno uočava zakonitosti: kako se glasovi menjaju u dodiru sa drugim glasovima, gde se pravi predah, koja se reč naglašava i kako se visina tona menja na kraju upitne rečenice.

U novije vreme moguće je i da se glas prilagodi nečijem ličnom stilu. Za svega nekoliko minuta sistem može da „ukrade“ nečiji glas, odnosno da, slušajući određenu osobu, nauči kako ona izgovara reči, gde pravi pauze, koliko brzo govori, pa čak i sitne zvučne osobenosti poput šuštanja tokom govora.

Izazov srpskog jezika

Iako savremeni sistemi gotovo savršeno oponašaju engleski ili nemački, to nije slučaj kod srpskog nezika. Razlog leži u tome što modeli nisu u dovoljno trenirani na srpskom jeziku, pa nisu do kraja usavršeni, zbog čega se relativno lako može prepoznati da ne govori čovek, već mašina. Greške u akcentovanju, izgovoru i ritmu govora i dalje su primetne. To će se, naravno, vremenom menjati.

Postoji mnogo servisa koji mogu da pretvore tekst u govor; među najnaprednijima je ElevenLabs. Preko ovog servisa glas može zvučati ljutito, tužno ili uzbuđeno, u zavisnosti od instrukcija koje mu se zadaju.

Postoji i čitav niz drugih alata, ali za sada nijedan ne daje uverljive rezultate na srpskom jeziku. Google-ov AI Studio takođe je izuzetno moćan. Iako je još uvek u beta verziji, stvarno je odličan.

Gde se sve ovi glasovi koriste?

Nema gde ne počinju da se koriste. U filmskoj industriji mogu da „ožive“ glasovi glumaca koji više nisu među nama ili su znatno ostarili. Čuveni primer je glumac Mark Hamil u seriji „Mandalorac“: pošto njegov glas danas ne zvuči kao nekada, računar je analizirao stare snimke i rekonstruisao glas mladog Luka Skajvokera, gotovo identičan onom iz prvih filmova.

Pravila, etika i opasnosti

Kao i svaka moćna alatka, i ova tehnologija može biti zloupotrebljena. Recimo da se napravi lažni audio-snimak (poznat kao „dipfejk“), u kojem poznati političar ili vama bliska osoba navodno izgovara nešto što nikada nije rekla.

U većini zemalja zakon još uvek ne prati brzinu tehnološkog razvoja. Glas sam po sebi nije zaštićen kao autorsko delo, ali se njegova zloupotreba u svrhu prevare smatra krivičnim delom.

Kako se zaštititi?

Ako dobijete poziv u kom vaš poznanik traži novac ili poverljive podatke, budite oprezni. Možda je u pitanju prevara. Postavite mu pitanje čiji odgovor znate samo vi i osoba za koju se pozivalac predstavlja.

Kako prepoznati govor generisan veštačkom inteligencijom?

Iako su postali izuzetni imitatori, još uvek postoje znaci koji odaju veštački govor.

Prvi je preterana „savršenost“. Ljudi greše, zamuckuju, uzdišu ili menjaju ritam govora u skladu sa raspoloženjem. Mašina je, nasuprot tome, često previše ujednačena, i upravo je ta ujednačenost razlog za sumnju.

Kod dužih i složenijih rečenica računar ponekad „izgubi dah“ na pogrešnom mestu ili završi rečenicu intonacijom koja ne odgovara njenom značenju.

Međutim, to je samo danas. Pitanje je da li ćemo za nekoliko godina moći da razlikujemo veštačke glasove od ljudskih.