AI-ul celor de la Baidu are la bază sistemul propriu de sintetizare Deep Voice, care era folosit până acum pentru conversia textului în vorbire. Acesta a parcurs un proces de antrenare care a constat în ascultarea 2.400 de vorbitori, însumând peste 800 de ore de audio.

În mod normal, clonarea veritabilă a unei voci umane se face după parcurgerea a 100 de pasaje audio a câte 5 secunde fiecare. Însă, după doar 10 pasaje audio de 5 secunde AI-ul celor de la Baidu este deja capabil să păcălească sistemele de recunoaştere vocală în 95% din cazuri.

Faptul că poate învinge în majoritatea cazurilor sistemele de recunoaştere vocală nu înseamnă că automat AI-ul chinezilor poate păcăli şi creierul uman, însă, conform cercetătorilor, este un imens pas înainte faţă de vocile artificiale folosite în prezent pe orice smartphone.

Clonarea vocii umane poate avea numeroase aplicaţii. Cercetătorii chinezii vorbesc în primul rând despre pacienţii care şi-au pierdut vocea şi şi-ar putea-o recăpăta pe această cale. De asemenea, aplicaţiile de smartphone ar putea fi configurate să citească texte chiar cu vocea utilizatorului.

O altă idee de aplicare a acestei tehnologii vizează jocurile electronice. Dezvoltatorii ar putea crea pe cale artificială o mare diversitate de voci pentru caracterele din joc, voci care să nu poată fi distinse de cele umane.

Bineînţeles că cercetătorii chinezi nu vorbesc şi despre aplicaţiile negative ale acestei tehnologii, care ar putea varia de la crearea unor ştiri false cât mai credibile, până la învingerea sistemele de securitate bazate pe recunoaştere vocală.