Mulţi dintre noi cunoaştem deja beneficiile pe care inteligenţa artificială de recunoaştere a fotografiilor de la Google le-a adus prin intermediul Google Photos. Aplicaţia foloseşte o versiune destul de simplă a algoritmului pentru a identifica fotografii ce conţin câini, pisici, mâncare sau chiar persoane.

Cu toate acestea, compania lucrează la posibilităţi de recunoaştere a fotografiilor mult mai avansate, iar cele mai noi rezultate au fost dezvăluite recent publicului.

Echipa din spatele Google Brain arată că rezultatele de acurateţe au ajuns acum la 93,9%. Acum doi ani, în 2014, testele făcute au avut la bază modelul de clasificare de imagini Inception V1, iar acesta avea o precizie de 89,6%. Poate că o creştere de 5% nu pare prea mult, dar când vine vorba de a replica limbajul uman natural, în cazul de faţă pentru a descrie o fotografie, progresul este imens.

Imaginea de mai sus arată progresele care s-au făcut între 2014 şi 2016. Sistemul nu este doar mult mai bun în ceea ce priveşte identificarea obiectelor, dar a devenit şi mai bun în a descrie particularităţi ale acestora, precum culoarea sau acţiunea desfăşurată în fotografie.

Inception V3 este atât de eficient nu doar pentru că identifică elemente individuale dintr-o fotografie, dar şi pentru că reuşeşte să le pună în relaţie, în funcţie de ce descoperă.

„De exemplu, un model de clasificare a imaginii îţi va spune că ai un câine, o minge şi gazon într-o fotografie, dar o descriere naturală a fotografiei îţi va putea relata şi ce culoare are mingea, dar şi în ce ipostază se află câinele faţă de aceasta”, transmite Chris Shallue, inginer software în echipa Google Brain.

Rezultatele au fost atinse după ce echipe mari de indivizi au creat descrieri pentru sute de mii de fotografii, textele fiind introduse apoi în TensorFlow. Deşi algoritmul se bazează pe texte create de oameni dacă imaginile sunt suficient de similare, poate crea şi descrieri proprii, atunci când i se prezintă ceva nou.