OpenAI lansează un bot care va aduna date de pe internet fără acordul proprietarilor
Compania OpenAI a făcut recent un anunț controversat – va lansa un nou crawler pe nume GPTBot care va strânge informații de pe internet pentru a antrena sistemele de inteligență artificială.
Proprietarii de site-uri web vor fi nevoiți să blocheze activ acest bot dacă nu vor ca datele lor să fie preluate. Sisteme AI precum ChatGPT de la OpenAI au nevoie de cantități imense de date pentru a-și antrena modelele și a învăța cum să ofere outputuri corecte. Până acum, o mare parte din aceste date au fost preluate liber de pe web.
Acest lucru a atras numeroase critici din partea autorilor și altor utilizatori de internet. Mulți au acuzat OpenAI și alte companii că preiau informații personale și conținut protejat de copyright pentru a-și antrena modelele, iar aceste texte pot influența sau chiar fi replicate în răspunsurile sistemului.
Companiile de AI au fost criticate și pentru că astfel de crawleri suprasolicită infrastructura web. Elon Musk, de exemplu, a spus că numărul mare de boti a forțat Twitter să limiteze numărul de postări pe care utilizatorii le pot vedea.
Modelele actuale ChatGPT 3.5 și 4 de la OpenAI au fost antrenate cu date de pe internet colectate până la sfârșitul lui 2021. Proprietarii acelor date sau site-urile de unde au fost luate nu au posibilitatea să le șteargă din modelele OpenAI.
Acum, OpenAI spune că noul GPTBot va crawla pe web pentru a aduna mai multe informații care vor antrena modele viitoare. Compania le-a transmis administratorilor de site-uri că ar trebui să includă instrucțiuni pentru bot în fișierul robots.txt, dacă nu vor ca datele lor să fie colectate.
OpenAI susține că botul “ar putea fi folosit pentru a îmbunătăți modele viitoare”. De asemenea, compania spune că botul este construit să elimine sursele care necesită plata, conțin informații personale sau au text care încalcă regulile lor.
Permiterea accesului botului pe anumite site-uri “poate ajuta modelele AI să devină mai precise și să își îmbunătățească capacitățile”, conform OpenAI.