Ľudia nevedia rozpoznať originálny ľudský hlas a ten, ktorý vytvorila umelá inteligencia
Vydanie chatbota ChatGPT koncom minulého roku pomohlo využívaniu nástrojov AI takmer v každej produktívnej činnosti. Pomohli aj syntetickým videám a audio nahrávkam tzv, deepfakes, ktoré majú pripomínať hlas alebo vzhľad skutočnej osoby. Štúdia publikovaná v časopise PLOS ONE hodnotí ľudskú schopnosť detegovať takúto umelo generovanú reč v inom jazyku ako v angličtine. Informáciu priniesol portál ScienceDaily.
Umelo vytvorený hlas prináša výhody a aj obavy
Deepfakes patria do kategórie generatívnej umelej inteligencie, ktorá je špecifickým typom strojového učenia. Trénuje ho algoritmus na učenie sa vzorov a charakteristík zo súborov údajov, ako je video alebo zvuk skutočnej osoby, aby mohol reprodukovať jej pôvodný vzhľad alebo aspoň hlas.
Pôvodné algoritmy vyžadovali tisíce vzoriek hlasu osoby, aby ho mohli generovať. Najnovšie vopred natrénované algoritmy však dokážu vytvoriť hlas osoby pomocou iba trojsekundovej vzorky. Algoritmy sú navyše open-source a tým aj voľne dostupné. To samozrejme vyvoláva nadšenie z ich výhod a zároveň aj obavy z ich prípadného zneužitia.
Výhody takejto generatívnej zvukovej AI technológie sú zrejmé. Pomoc ľudom, ktorých reč môže byť obmedzená alebo ktorí môžu stratiť hlas v dôsledku choroby. Narastajú však aj obavy, že by takúto technológiu mohli použiť zločinci alebo aj nedemokratické štáty na to, aby spôsobili značné škody jednotlivcom a spoločnostiam.
Rozoznať umelo vytvorený hlas je stále ťažšie
Tieto obavy posilňuje aj nová štúdia. Výskumníci z UCL použili algoritmus prevodu textu na reč (TTS) vyškolený na dvoch verejne dostupných súboroch údajov, jeden v angličtine a jeden v mandarínčine. Následne vygenerovali 50 deepfake vzoriek reči v každom jazyku. Vzorky sa líšili od vzoriek použitých na trénovanie algoritmu, aby sa zabránilo možnosti reprodukovať pôvodný vstup.
Tieto vygenerované vzorky a aj pravé vzorky sa prehrali 529 účastníkom štúdie, aby sa zistilo, či dokážu rozoznať skutočný hlas od falošného. Účastníci však boli schopní identifikovať falošnú reč iba v 73 % prípadov bez školenia na rozpoznávanie aspektov hlboko deepfake obsahu. Kvalita deepfake obsahu sa bude navyše v budúcich rokoch určite zvyšovať a rozoznať ho od skutočnosti bude stále ťažšie. Obavy z jeho zneužitia sú tak určite opodstatnené.
Náš tip
TIP na aplikáciu: Premeňte svoj výrez selfie fotoaparátu na užitočnú skratku