
În câteva cuvinte
Google intră în cursa pentru dezvoltarea roboților umanoizi cu Gemini Robotics, un model de inteligență artificială menit să ofere roboților capacitatea de a înțelege, învăța și acționa similar oamenilor. Scopul este de a crea roboți utili și adaptabili, capabili să interacționeze cu lumea fizică într-un mod sigur și eficient.
„Următorul mare salt al umanității vor fi roboții umanoizi”, afirmă Rev Lebaredian, vicepreședinte Omniverse și Tehnologie de Simulare la gigantul informatic Nvidia.
Trambulina pentru acest salt, prevăzut ca unul dintre progresele disruptive ale următorilor ani, este deja aici și Google tocmai s-a alăturat cursei prin anunțarea Gemini Robotics, dezvoltarea modelului său de inteligență artificială (IA) pentru mașini, pentru roboți atât industriali, cât și umanoizi, și pe care a pus-o la dispoziția marilor companii din industrie, precum Apptronik, Agile Robots, Agility Robots, Boston Dynamics și Enchanted Tools, pentru a o testa.
Până acum, roboții erau mecanisme articulate “orbi și proști”, așa cum descrie Lebaredian modelele vechi, concepute pentru a efectua sarcini repetitive, dar incapabile să învețe, să se dezvolte în scenarii necunoscute și să acționeze în consecință.
Pentru Dennis Hong, fondatorul RoMeLa, “viitorul este ca roboții să poată executa orice poate face un om”. Dar pentru a acționa ca o persoană, ei au nevoie de un creier care să le permită să înțeleagă, să învețe, să perceapă și să acționeze. Și această minte este IA fundamentată pe modele lingvistice mari (LLM, după sigla în engleză), inteligența artificială capabilă să dezvolte mașinile până la ultima lor expresie: androizii, roboții cu aspect și comportamente similare cu oamenii, capabili să se descurce într-o lume dezvoltată de și pentru oameni.
În testele de laborator, roboții cu inteligența artificială de la Google nu demonstrează încă abilități atât de complexe precum Figure 01, prototipul cel mai apropiat de humanoid pe care știința ficțiune l-a anticipat și susținut de Open AI, Nvidia și Jeff Bezos, fondatorul Amazon.
Dar cei dotați cu Gemini Robotics se apropie foarte mult după schimbarea de direcție adoptată în 2024. “Anul trecut”, explică Carolina Parada, director de inginerie la Google DeepMind Robotics și de origine venezueleană, “am decis să acceptăm o nouă provocare și să ne concentrăm pe învățarea roboților să efectueze sarcini complexe de manipulare fină, cum ar fi cele pe care le facem când ne legăm șireturile, pe baza datelor din lumea reală și a simulărilor pentru a învăța”.
Din această provocare a rezultat Gemini Robotics, modelul de IA destinat dezvoltării roboților de uz general (umanoizi). “Pentru aceasta, este necesar ca ei să fie cu adevărat utili, să te înțeleagă, să înțeleagă lumea din jurul tău și, apoi, să fie capabili să acționeze în siguranță, interactiv și cu abilitate”, precizează Parada.
Robotic Transformer 2 (RT-2), model care utilizează IA de la Google pentru a aduce viziunea și limbajul în acțiune (VLA). Google DeepMind.
Testele de laborator prezentate, unde roboții, pe baza comenzilor vocale, colectează și depozitează obiecte în recipiente specifice descrise doar prin culoarea lor și care își schimbă locul, pot părea simple, dar pentru un robot este foarte dificil. În acest sens, Kanisha Rao, colegul lui Parada la DeepMind, precizează că roboții “funcționează bine în scenarii pe care le-au experimentat înainte, dar eșuează în cele necunoscute”.
Astfel, după cum explică Rao, în timpul testelor, mașinile au fost puse în situații în care obiectele pe care trebuie să le identifice și să le manipuleze își schimbă culoarea, mediile se modifică, iar IA răspunde la ordine de acțiuni inedite pentru mașină sau asupra obiectelor pe care nu le cunoștea, cum ar fi aruncarea unei mingi de baschet de jucărie fără a fi știut înainte ce este acest sport.
Pentru a obține aceste abilități, după cum explică Parada, IA robotului trebuie să înțeleagă limbajul natural, “să înțeleagă lumea fizică în detaliu” și, după cum adaugă Vikas Sindhwani, cercetător științific în echipa de robotică de la Google DeepMind, să acționeze în siguranță prin “evaluări ale proprietăților scenei și ale consecințelor realizării unei anumite acțiuni”.
Calea către siguranță este încă deschisă. Sindhwani afirmă că au reușit ca roboții să aibă o “înțelegere” largă a acestui concept, pe baza datelor atât reale, cât și simulate din care se alimentează IA lor, dar continuă să ajusteze pentru a “permite sarcini din ce în ce mai interactive și colaborative” fără riscuri și pentru a îndeplini cele trei reguli ale lui Isaac Asimov: un robot nu trebuie să dăuneze unui om prin acțiune sau omisiune; trebuie să se supună ordinelor umane, cu excepția cazului în care intră în conflict cu prima lege; și trebuie să-și protejeze propria existență, cu excepția cazului în care intră în conflict cu prima sau a doua lege.
Mai multe informații
„Următorul mare salt este dezvoltarea umanoizilor și suntem foarte aproape”
Conceptul global al noului pas al Google către robotizare este transferul a ceea ce s-a realizat în lumea digitală, cu dezvoltarea de agenți (asistenți) din ce în ce mai sofisticați în mediul fizic. “La DeepMind, am făcut progrese în modul în care modelele noastre Gemini rezolvă probleme complexe prin raționament multimodal din texte, imagini, audio și video. Până acum, totuși, aceste abilități au fost limitate în mare măsură la domeniul digital. Pentru ca IA să fie utilă oamenilor în domeniul fizic, trebuie să demonstreze un raționament “încarnat”, capacitatea umană de a înțelege și de a reacționa la lumea care ne înconjoară”, explică Parada.
Cele două modele de IA ale Google pentru robotizare sunt VLA (viziune-limbaj-acțiune), construit pe baza Gemini 2.0 și căruia i-au fost încorporate acțiuni fizice, și ER (raționament întrupat), cu abilități de raționament.
Aceste instrumente sunt calea către utilitatea reală, pe care Parada o rezumă: “Modelele de IA pentru robotică au nevoie de trei calități principale: trebuie să fie generale, adică să fie capabile să se adapteze la diferite situații; trebuie să fie interactive, ceea ce înseamnă că pot înțelege și răspunde rapid la instrucțiuni sau schimbări în mediul lor; și trebuie să aibă dexteritate, ceea ce înseamnă că pot face genul de lucruri pe care oamenii le pot face de obicei cu mâinile și degetele, cum ar fi manipularea atentă a obiectelor”.