Datele sintetice și viitorul inteligenței artificiale

După ce și-a menținut o formă impresionantă anul trecut, gigantul tehnologic Adobe vede acum cum o parte din strălucirea sa se estompează.

În urma unor previziuni lipsite de strălucire și a îngrijorărilor legate de faptul că încorporarea și monetizarea inteligenței artificiale (AI) de către firmă se produce în ritmul potrivit, acțiunile Adobe au fost afectate la jumătatea lunii martie. Multe dintre problemele cu care se confruntă Adobe sunt relevante pentru întregul sector tehnologic al inteligenței artificiale, unde, în pofida unei exagerări extreme și a unui potențial cu adevărat revoluționar deopotrivă, inteligența artificială generativă se confruntă cu dificultăți de creștere.

Acest lucru este în parte alimentat de faptul că datele noi necesare pentru a continua să îmbunătățească capacitățile acestei tehnologii revoluționare sunt din ce în ce mai puține. Pentru a menține ritmul rapid de avansare pe care tehnologia IA l-a înregistrat în ultimii ani, trebuie să devină disponibile noi surse de date pentru antrenarea algoritmilor, ceea ce a dus la o concentrare pe datele sintetice – seturi de informații generate de calculator create pentru antrenarea algoritmilor. Datele sintetice se numără acum printre cele mai căutate resurse din industria tehnologică.

Cine controleaza viitorul inteligenței artificiale și cum afectează asta România
RecomandariCine controleaza viitorul inteligenței artificiale și cum afectează asta România

Dureri de cap pentru companii

Problemele se înmulțesc la Adobe. Acțiunile gigantului tehnologic s-au prăbușit cu până la 11% în martie, în urma unei previziuni de vânzări slabe. În ciuda faptului că a înregistrat o creștere a veniturilor de două cifre de la an la an, Adobe a anunțat și o scădere a venitului net, de la 2,71 dolari pe acțiune anul trecut la 1,36 dolari în 2024. După ce aproape au atins un maxim istoric la începutul anului, acțiunile companiei au scăzut cu 20% de la începutul lunii februarie. Acest lucru a dat naștere la îngrijorări că recentele probleme ale Adobe reprezintă un semnal de alarmă pentru sectorul IA în general.

O parte a problemei, în mod natural, este cauzată de consecințele preluării eșuate a companiei Figma de către Adobe. O achiziție în valoare de 20 de miliarde de dolari a instrumentului de proiectare bazat pe cloud, condusă de Scott Belsky, directorul de strategie al Adobe, părea aproape finalizată înainte ca Adobe să se retragă din tranzacție la sfârșitul anului trecut din cauza obstacolelor de reglementare din UE și Marea Britanie. De asemenea, Adobe a trebuit să plătească Figma 1 miliard de dolari ca taxe de despărțire după eșecul fuziunii.

În urma eșecului tranzacției Figma, Adobe – și investitorii săi – au mizat pe potențialul de inteligență artificială generativă al Adobe. „Compania inovează într-un ritm pe care nu l-am mai văzut niciodată”, a subliniat Dan Durn, directorul financiar al Adobe, în toamna anului trecut, înainte ca afacerea Figma să se destrame în mod oficial, dar în timp ce se confrunta deja cu un control intens din partea autorităților de reglementare. „Integrăm nativ și profund aceste tehnologii în acele fluxuri de lucru și produse care definesc modul de operare. Acesta este un moment fundamental în istoria Adobe”, a explicat Durn. „Avem o oportunitate în fața noastră”.

Un pionier al inteligentei artificiale pune sub semnul intrebarii viitorul muncii
RecomandariUn pionier al inteligentei artificiale pune sub semnul intrebarii viitorul muncii

Cu toate acestea, faptul că Adobe Firefly face greșeli similare cu cele ale lui Google Gemini, care au făcut ample titluri de presă în ultima vreme, arată că problema este mai profundă decât preluarea prăbușită a Figma. Încercările de a antrena modelele de inteligență artificială pentru a evita stereotipurile rasiale au creat un potop de reprezentări aistorice care au devenit rapid virale, oferind cel mai recent furaj pentru scepticii inteligenței artificiale cu privire la limitele actuale ale tehnologiei.

Orizontul de evenimente al datelor

Firefly se dovedește a fi un instrument formidabil, dar eșecurile sale publice riscă să provoace daune de durată reputației aplicației. Într-un fel, Adobe este pedepsită pentru că a respectat regulile. Compania și-a antrenat algoritmul pe imagini de stoc și pe conținut cu licență deschisă pentru a risipi îngrijorările criticilor cu privire la implicațiile drepturilor de proprietate intelectuală ale inteligenței artificiale generative. Acest lucru este în opoziție cu alți concurenți din domeniul tehnologiei care, adesea, se joacă rapid cu drepturile de autor atunci când își antrenează algoritmii.

Liderul industriei OpenAI, de exemplu – care se confruntă cu mai multe procese legate de utilizarea conținutului protejat prin drepturi de autor – susține că este „imposibil” să își antreneze instrumentele de inteligență artificială fără acestea. OpenAI susține că limitările provin din faptul că „drepturile de autor acoperă astăzi practic orice fel de exprimare umană – inclusiv postările de pe bloguri, fotografiile, postările de pe forumuri, fragmente de cod software și documente guvernamentale”.

Cum pot școlile să schimbe viitorul inteligenței artificiale
RecomandariCum pot școlile să schimbe viitorul inteligenței artificiale

Cu toate acestea, chiar și incluzând datele protejate prin drepturi de autor, companiile se apropie rapid de un zid în ceea ce privește noile date de instruire disponibile pentru scopuri de instruire a IA. Nu este vorba doar de o problemă de licență – chiar și datele protejate de drepturi de autor disponibile devin prea puține pentru a alimenta foamea de formare a modelelor lingvistice mari (LLM). Mai degrabă, acesta este un val care ar putea lovi întreaga industrie, dar care lovește Adobe mai devreme decât majoritatea, datorită dependenței sale de datele de utilizare corectă.

Acest lucru este deosebit de adevărat având în vedere importanța de a se baza pe date de înaltă calitate pentru algoritmii de formare. Conținutul generat de utilizatori, cum ar fi postările din rețelele de socializare sau fotografiile de calitate scăzută, sunt ușor de obținut, dar nu aduc nicio contribuție semnificativă la rezultatul unui model de inteligență artificială. Mai rău, datele de slabă calitate pot dăuna în mod activ randamentului unui algoritm, la fel cum arderea unui combustibil prost poate strica un motor. Alarmele sună deja în întreaga industrie cu privire la lipsa iminentă de date de înaltă calitate, un orizont de date care ar putea forța tehnologia IA să stagneze.

Un viitor sintetic

Pentru a valorifica pe deplin puterea emergentă a inteligenței artificiale și pentru a asigura continuarea creșterii exponențiale a învățării, există o singură soluție reală: datele sintetice, seturi de informații generate de calculator care sunt create în mod explicit pentru a antrena algoritmi. Această soluție este deosebit de atrăgătoare, deoarece nu numai că oferă scalabilitatea necesară pentru ca modelele de inteligență artificială să își continue creșterea exponențială, dar și pentru că rezolvă problemele inerente legate de drepturile de autor și de confidențialitate.

În unele industrii, datele sintetice se dovedesc deja a fi extrem de eficiente. Companiile care dezvoltă tehnologii pentru mașini care se conduc singure, de exemplu, completează datele din lumea reală cu date generate. Această abordare le permite să simuleze orice scenariu imaginabil, inclusiv evenimente rare și variații extinse ale fiecărei situații specifice.

Utilizarea inteligenței artificiale pentru a identifica fraudele în tranzacțiile bancare s-a dovedit până în prezent o provocare, deoarece tranzacțiile frauduloase reprezintă de obicei mai puțin de 100 de procente din toate tranzacțiile. Însă, prin utilizarea unor seturi de date sintetice care generează mii de astfel de cazuri limită, algoritmilor li se furnizează suficiente informații pentru a face posibilă recunoașterea unor modele similare. Alte aplicații pot fi găsite în domeniul sănătății, unde instruirea IA a fost dificilă până acum din cauza restricțiilor puternice de confidențialitate care protejează datele medicale.

Datele sintetice prezintă în mod natural riscuri, inclusiv „înrudirea”, prin care algoritmii ar putea replica erorile celorlalți, o problemă deja prezentă în antrenarea IA prin intermediul web-scraping-ului. Pe măsură ce AI generează mai mult conținut online, algoritmii riscă să se antreneze pe acest conținut creat de AI, adesea fără ca dezvoltatorii să știe. Cu toate acestea, utilizarea unor seturi de date sintetice personalizate permite dezvoltatorilor să abordeze mai bine erorile și inconsecvențele în comparație cu utilizarea datelor colectate.

În timp ce drumul de parcurs este încă lung și sinuos, datele sintetice vor fi, fără îndoială, o piesă masivă a puzzle-ului AI generativ. De la start-up-uri precum Scale AI și Gretel.ai până la giganți consacrați precum OpenAI sau Microsoft, industria prinde din urmă acest fapt și o cursă a înarmării pentru datele sintetice este deja în curs de desfășurare. Având în vedere că se întrevede deja sfârșitul datelor naturale, aceasta ar putea fi cursa care salvează inteligența artificială.

Sursa: bmmagazine.co.uk