banner
Centre d'Information
Entreprise globale

Des révoltes en matière de données éclatent contre l’IA

Jun 03, 2023

Publicité

Supporté par

Marre des sociétés d’IA qui consomment du contenu en ligne sans consentement, les auteurs de fanfictions, les acteurs, les sociétés de médias sociaux et les agences de presse font partie de ceux qui se rebellent.

Par Sheera Frenkel et Stuart A. Thompson

Sheera Frenkel et Stuart Thompson rendent compte de la désinformation en ligne et des données numériques.

Depuis plus de 20 ans, Kit Loffstadt écrit des fanfictions explorant des univers alternatifs pour les héros de « Star Wars » et les méchants de « Buffy contre les vampires », partageant ses histoires gratuitement en ligne.

Mais en mai, Mme Loffstadt a arrêté de publier ses créations après avoir appris qu'une société de données avait copié ses histoires et les avait intégrées à la technologie d'intelligence artificielle qui sous-tend ChatGPT, le chatbot viral. Consternée, elle a caché ses écrits derrière un compte verrouillé.

Mme Loffstadt a également aidé à organiser un acte de rébellion le mois dernier contre les systèmes d’IA. Avec des dizaines d'autres auteurs de fanfictions, elle a publié un flot d'histoires irrévérencieuses en ligne pour submerger et confondre les services de collecte de données qui alimentent le travail des écrivains en technologie d'IA.

"Nous devons chacun faire tout ce que nous pouvons pour leur montrer que le fruit de notre créativité n'est pas réservé aux machines qui récoltent ce qu'elles veulent", a déclaré Mme Loffstadt, une doubleuse de 42 ans originaire du Yorkshire du Sud en Grande-Bretagne.

Les auteurs de fanfictions ne sont qu’un groupe parmi d’autres qui organisent actuellement des révoltes contre les systèmes d’IA alors que la fièvre autour de la technologie s’est emparée de la Silicon Valley et du monde. Ces derniers mois, des sociétés de médias sociaux comme Reddit et Twitter, des organismes de presse comme le New York Times et NBC News, des auteurs comme Paul Tremblay et l'actrice Sarah Silverman ont tous pris position contre l'IA qui aspire leurs données sans autorisation.

Leurs protestations ont pris différentes formes. Les écrivains et les artistes verrouillent leurs fichiers pour protéger leur travail ou boycottent certains sites Web qui publient du contenu généré par l'IA, tandis que des entreprises comme Reddit veulent facturer l'accès à leurs données. Au moins 10 poursuites ont été intentées cette année contre des sociétés d'IA, les accusant d'entraîner leurs systèmes sur le travail créatif des artistes sans leur consentement. La semaine dernière, Mme Silverman et les auteurs Christopher Golden et Richard Kadrey ont poursuivi OpenAI, le créateur de ChatGPT, et d'autres pour l'utilisation de leur travail par l'IA.

Au cœur des rébellions se trouve une nouvelle compréhension selon laquelle l’information en ligne – histoires, œuvres d’art, articles de presse, messages publiés sur les forums et photos – peut avoir une valeur inexploitée importante.

La nouvelle vague d’IA – connue sous le nom d’« IA générative » pour le texte, les images et autres contenus qu’elle génère – est construite sur des systèmes complexes tels que de grands modèles linguistiques, capables de produire une prose semblable à celle d’un humain. Ces modèles sont formés sur des quantités de données de toutes sortes afin de pouvoir répondre aux questions des gens, imiter les styles d'écriture ou produire de la comédie et de la poésie.

Cela a déclenché une chasse aux entreprises technologiques pour obtenir encore plus de données pour alimenter leurs systèmes d’IA. Google, Meta et OpenAI ont essentiellement utilisé des informations provenant de partout sur Internet, y compris de vastes bases de données de fanfictions, de nombreux articles de presse et des collections de livres, dont une grande partie était disponible gratuitement en ligne. Dans le langage de l’industrie technologique, cela s’appelait « gratter » Internet.

Le GPT-3 d'OpenAI, un système d'IA lancé en 2020, s'étend sur 500 milliards de « jetons », chacun représentant des parties de mots trouvés principalement en ligne. Certains modèles d’IA couvrent plus d’un billion de jetons.

La pratique du scraping sur Internet est ancienne et a été largement divulguée par les entreprises et les organisations à but non lucratif qui l'ont fait. Mais cela n’a pas été bien compris ni considéré comme particulièrement problématique par les entreprises propriétaires des données. Cela a changé après le lancement de ChatGPT en novembre et le public en a appris davantage sur les modèles d'IA sous-jacents qui alimentaient les chatbots.

"Ce qui se passe ici est un réalignement fondamental de la valeur des données", a déclaré Brandon Duderstadt, fondateur et directeur général de Nomic, une société d'IA. «Auparavant, l'idée était que vous tiriez profit des données en les rendant ouvertes à tous et en diffusant des publicités. Maintenant, l’idée est que vous verrouillez vos données, car vous pouvez en extraire beaucoup plus de valeur lorsque vous les utilisez comme entrée dans votre IA. »