
În câteva cuvinte
Articolul explorează utilizarea modelelor mici de inteligență artificială (SLM) ca o alternativă mai durabilă la modelele mari (LLM), care consumă cantități semnificative de energie în centrele de date. SLM-urile pot rula pe dispozitive locale, reducând necesitatea transferului de date și consumul de energie. Deși SLM-urile au limitări, ele sunt potrivite pentru sarcini simple, iar viitorul IA ar putea implica o abordare hibridă, combinând modele locale și cloud.
În cursa agitată pentru inteligența artificială (IA), noutățile se succed.
În cursa agitată pentru inteligența artificială (IA), noutățile se succed. Și printre noile lansări apar din ce în ce mai mult așa-numitele modele mici, small language models sau SLM. Acestea sunt diferite de LLM-uri, modelele mari care servesc drept motor pentru ChatGPT sau Google Gemini. Aceste sisteme, mai simple și orientate spre o mai mare eficiență a resurselor, pot fi uneori rulate pe un computer sau chiar pe un telefon mobil.
Este opusul funcționării sistemelor mari de IA, care apelează la cloud computing pentru a funcționa.
Este opusul funcționării sistemelor mari de IA, care apelează la cloud computing pentru a funcționa. Aceasta înseamnă procesarea informațiilor în utilajele mari ale centrelor de date. Iar efectele asupra mediului se vor face simțite. Banca de investiții Goldman Sachs calculează că IA va crește necesitățile energetice ale centrelor de date cu 165% până în 2030. Prognoza vine în contextul unei febre de a construi acest tip de infrastructură.
Mai multe informații
Se vând și se cumpără instrucțiuni pentru IA-uri: așa arată piețele de prompts
Compania americană OpenAI intenționează să investească, împreună cu mai mulți parteneri, până la 500 de miliarde de dolari în construirea de centre de date. Numai în 2025, Amazon, Microsoft, Google și Meta intenționează să cheltuie un total de peste 320 de miliarde în acest tip de infrastructură. În același timp, Comisia Europeană a anunțat un program de a dedica 200 de miliarde de euro, cu finanțare mixtă, pentru construirea de centre de date destinate IA.
În fața acestei bătălii pentru acumularea de resurse de calcul, modelele mici de IA ar putea fi o alternativă mai durabilă. Mistral Small 3.1, opțiunea startup-ului francez cu același nume, funcționează pe un Mac cu 32 de gigabytes de memorie RAM, în timp ce proiectul open source TinyLlama 1.1B poate fi implementat pe computere cu mai mult de 8 gigabytes de RAM, chiar unii l-au testat pe smartphone-uri. Ca parte a catalogului său de noutăți în IA, Google a lansat recent Gemma 3 1B, un model pregătit pentru dispozitive mobile. Ideea este ca dezvoltatorii să-l integreze în aplicațiile lor pentru a efectua sarcini fără a se conecta la internet.
«Modelele mici sunt optimizate astfel încât să aibă un număr mai mic de parametri, astfel încât, în final, rețeaua este mai mică. Cu cât modelul este mai mic, cu atât este mai eficient în consumul de energie, deoarece trebuie să facă mai puține operații și are nevoie de mai puțin spațiu de stocare», explică Verónica Bolón-Canedo, cercetătoare în IA la Centrul de Cercetare în Tehnologii ale Informației și Comunicațiilor de la Universitatea din A Coruña. Ea este una dintre autoarele unui studiu care explorează formule pentru a promova o IA mai durabilă la nivel de mediu.
«Dacă, în plus, reușești ca modelul să poată fi executat pe un dispozitiv, economisești faptul de a trebui să trimiți fiecare nouă interogare către un centru de date. Acest lucru, evident, are costul de a transmite datele și, în plus, marile centre de date consumă mai multă energie. Totul se economisește dacă faci asta pe propriul dispozitiv», comentează Bolón-Canedo.
Desigur, modelele mici care rulează pe un computer sau pe un telefon mobil sunt mai puțin precise și nu sunt potrivite pentru orice sarcină. Tot ce are legătură cu generarea de imagini se complică, de exemplu. Deși se fac progrese rapid.
«Dezvoltarea modelelor lingvistice mici, a modelelor multimodale și de raționament de înaltă calitate avansează cu mare viteză. Companiile pregătesc aceste modele în mod activ pentru aplicații comerciale și pentru inferența (operațiunile pe care modelele le fac pentru a răspunde la o interogare) pe propriul dispozitiv», indică George Tsirtsis, director de tehnologie la Qualcomm în Europa. Compania sa, care vinde cipuri unui număr mare de mărci de telefoane, a folosit acum doi ani modelul Stable Diffusion pe un mobil pentru a genera o imagine și a constatat că a durat 15 secunde. Sarcina durează acum mai puțin de o secundă datorită dezvoltării procesoarelor concepute pentru IA.
Este dificil de calculat, dar este de așteptat ca economiile de energie să fie considerabile atunci când modelele sunt rulate pe un dispozitiv. «Marile centre de date au mașini mult mai puternice, care consumă mai multă energie. Și au multe probleme de răcire. Pe computerul sau dispozitivul tău, economisești toate acestea», subliniază Canedo-Bolón, care adaugă alte avantaje ale rulării sistemelor local. «Nu există atât de multe probleme de confidențialitate. Datele tale nu părăsesc dispozitivul, nu merg în cloud. În plus, se câștigă în viteză, deoarece nu există latența derivată din trimiterea informațiilor, procesarea lor și primirea răspunsului».
Un raport al Agenției Internaționale a Energiei estimează că centrele de date, care reprezintă acum 1,5% din totalul energiei consumate, vor reprezenta 3% în 2030. Ar ajunge la 945 de terawați-oră anual, o cifră mai mare decât necesitățile energetice ale Japoniei. Sarcinile de lucru legate de inteligența artificială ar consuma cu 30% mai multă electricitate în fiecare an.
«Procesarea IA pe un dispozitiv este, de obicei, mult mai eficientă energetic decât interogarea modelelor IA găzduite în centrele de date, mai ales în aplicațiile care necesită un răspuns în timp real sau aproape în timp real», subliniază Tsirtsis. Dar execuția locală are dificultățile sale. IA consumă o cantitate mare de energie și, dacă funcționează doar în interiorul unui dispozitiv, acest lucru are un impact asupra bateriei sale. De aceea, producătorii precum Qualcomm au dezvoltat NPU-urile (acronimul în engleză pentru unitatea de procesare neuronală), destinate gestionării eficiente a inferenței.
Compania a aplicat, de asemenea, acest tip de procesoare la prima generație de AI PC-uri, o etichetă inventată pentru a vesti sosirea IA pe computere. «Platforma noastră Snapdragon X incorporează NPU-uri de înaltă performanță și eficiență energetică, dezvoltate pentru inferența IA generativă. Designul acestui hardware permite cipurilor să gestioneze sarcini IA complexe pe laptop, având grijă de baterie», explică Tsirtsis.
Dar rămâne de văzut pentru ce sarcini vor fi utile IA-urile executate local. În orice caz, modelele mici nu sunt un înlocuitor pentru cele mari. «Vor exista sarcini pentru care ne putem descurca cu performanța oferită de un model mai mic care rulează local, probabil pentru generarea de text», reflectă cercetătoarea în IA. «Dar apoi sunt sarcinile care sunt mai costisitoare din punct de vedere al calculului, cum ar fi o înțelegere mai profundă, un raționament sau IA multimodală (care integrează informații și cunoștințe în diferite formate, cum ar fi text, imagini sau audio). Pentru aceste sarcini, probabil că ai nevoie de un model mare».
Unele dintre sarcinile potrivite pentru a fi efectuate pe dispozitivul în sine ar putea fi scrierea de texte simple, generarea de rezumate, citirea scrierii de mână în imagini, traducerea textelor sau transcrierile audio. Tsirtsis este de acord că viitorul trece prin adoptarea unei abordări hibride. Predicția sa este că aplicațiile IA vor apela la cloud atunci când este necesar și vor rezolva alte sarcini pe propriul dispozitiv. Este o modalitate de a avansa spre un echilibru între performanță și eficiență energetică.