La tentative de l’UE de réglementer l’IA open source est contre-productive

La réglementation de l’IA à usage général (GPAI) est actuellement débattue par les organes législatifs de l’Union européenne alors qu’ils travaillent sur la loi sur l’intelligence artificielle (AIA). Un changement proposé par le Conseil de l’UE (le Conseil) prendrait la mesure inhabituelle et nuisible de réglementer la GPAI open source. Bien que destinée à permettre une utilisation plus sûre de ces outils, la proposition créerait une responsabilité légale pour les modèles GPAI open source, compromettant leur développement. Cela pourrait concentrer davantage le pouvoir sur l’avenir de l’IA dans les grandes entreprises technologiques et empêcher la recherche essentielle à la compréhension de l’IA par le public.

Qu’est-ce que la GPAI ?

L’approche du Conseil consiste à définir un sous-ensemble de systèmes d’IA à usage général, puis à exiger des développeurs GPAI qu’ils satisfassent aux exigences en matière de gestion des risques, de gouvernance des données, de documentation technique, d’instructions de transparence, ainsi qu’aux normes de précision et de cybersécurité. Le Conseil définit la GPAI comme une IA qui remplit des « fonctions généralement applicables » et peut être utilisée dans une « pluralité de contextes », mais cette définition est encore assez vague. Bien qu’il n’y ait pas de définition largement utilisée de GPAI, la génération actuelle de GPAI se caractérise par la formation de modèles d’apprentissage en profondeur sur de grands ensembles de données, utilisant un calcul relativement intensif, pour effectuer plusieurs, voire des centaines de tâches. Ces tâches peuvent inclure la génération d’images, la traduction de langues, le déplacement d’un bras robotique, la lecture de jeux vidéo ou tout ce qui précède.

Le Conseil a des raisons d’envisager de réglementer les modèles GPAI. Les capacités de ces modèles augmentent rapidement et, par conséquent, ils sont utilisés dans de nouvelles applications, telles que les assistants d’écriture ou les outils de retouche photo. On s’inquiète également de leur utilisation pour générer de la désinformation et des deepfakes, bien que cela soit moins courant.

Le Conseil semble également préoccupé par l’opacité de ces modèles – la formation de modèles d’apprentissage en profondeur sur d’énormes ensembles de données a conduit à des comportements plus complexes et difficiles à comprendre. De plus, certaines entreprises rendent GPAI uniquement disponible via des interfaces de programmation d’applications ou des API. Cela signifie que les utilisateurs peuvent uniquement envoyer des données au système GPAI, puis obtenir une réponse. Ils ne peuvent pas interroger ou évaluer directement le modèle, ce qui pose de véritables défis dans le développement de systèmes d’IA en aval qui répondraient aux exigences de l’AIA. Ce sont quelques-unes des raisons pour lesquelles le Conseil envisage des exigences sur les modèles GPAI.

GPAI open source contribue au développement responsable de GPAI

Bien que les objectifs de l’approche du Conseil en matière de GPAI soient compréhensibles, l’inclusion explicite de Open source Le GPAI sape les ambitions du Conseil. Les modèles GPAI open source sont librement disponibles pour être utilisés par n’importe qui, plutôt que d’être vendus ou autrement commercialisés. Le projet d’AIA proposé créera des responsabilités juridiques, et donc un effet dissuasif, sur le développement de GPAI open source. Les projets GPAI open source jouent deux rôles clés dans l’avenir de la GPAI : premièrement, ils diffusent le pouvoir sur la direction de l’IA des entreprises technologiques disposant de ressources importantes vers un groupe plus diversifié de parties prenantes. Deuxièmement, ils permettent une recherche critique, et donc une connaissance publique, sur la fonction et les limites des modèles GPAI.

Très peu d’institutions disposent des ressources nécessaires pour former des modèles GPAI de pointe et il est raisonnable d’estimer qu’un modèle GPAI individuel pourrait coûter plusieurs millions de dollars à développer, bien que chaque modèle supplémentaire créé par une institution devrait coûter beaucoup moins cher. Alors que certaines grandes entreprises technologiques rendent leurs modèles open source, tels que le BERT de Google ou le GPT-2 d’Open AI, les incitations des entreprises à publier ces modèles diminueront avec le temps à mesure qu’ils seront plus commercialisés.

Il existe déjà très peu de modèles open source issus d’initiatives à but non lucratif, laissant le domaine dépendant des grandes entreprises technologiques. L’Allen Institute for AI a publié ELMo en 2019, mais l’organisation a annoncé plus tôt en juillet qu’ils pourraient être se recentrer de développer des modèles de langage. Depuis la mi-2020, un groupe collaboratif de chercheurs appelé EleutherAI a réussi à créer des versions open source de grands modèles de langage et de modèles scientifiques d’IA. La plus prometteuse est la récente publication de Bloom, un grand modèle de langage développé par une large collaboration de plus de 900 chercheurs en science ouverte et organisé par la société HuggingFace. Ces efforts permettent à un ensemble beaucoup plus diversifié de parties prenantes de l’avenir de GPAI, peut-être mieux illustré par le soutien de Bloom de 46 langues humaines. Notamment, Bloom a été développé à l’aide d’un supercalculateur du gouvernement français, ce qui le rend plus exposé aux nouvelles réglementations.

Au-delà de l’orientation générale de la recherche GPAI, les connaissances spécifiques des modèles GPAI open source contribuent considérablement à l’intérêt public. Dans un précédent article de Brookings, j’ai analysé comment les logiciels d’IA open source accélèrent l’adoption de l’IA, permettent une IA plus juste et plus fiable et font progresser les sciences qui utilisent l’IA – cela est également largement vrai pour GPAI.

Sans GPAI open source, le public en saura moins et les grandes entreprises technologiques auront plus d’influence sur la conception et l’exécution de ces modèles.

De plus, la disponibilité publique des modèles GPAI aide à identifier les problèmes et à proposer des solutions dans l’intérêt de la société. Par exemple, les grands modèles de langage open source ont montré comment les biais se manifestent dans les associations du modèle avec des mots spécifiques et montrent comment ils pourraient être intentionnellement manipulés. D’autres articles utilisent des modèles GPAI open source pour comparer leur fiabilité dans la génération de code, ou pour construire de nouvelles références pour évaluer leur compréhension du langage, ou mesurer le coût carbone du développement de l’IA. D’autant plus que les modèles GPAI deviennent plus courants dans les applications percutantes telles que les moteurs de recherche et les flux d’actualités, ainsi que dans les usines ou les services publics, il sera primordial de comprendre leurs limites.

Ces recherches débouchent non seulement sur des avancées scientifiques, mais aussi sur une critique plus appropriée de leur utilisation par les grandes entreprises technologiques. Par exemple, comprendre le fonctionnement général des modèles GPAI peut faciliter les audits algorithmiques participatifs, où des groupes d’individus collaborent pour tester le fonctionnement d’un système algorithmique d’entreprise de l’extérieur. Un groupe de créateurs de contenu a récemment utilisé cette approche pour démontrer que YouTube démonétisait injustement le contenu LGBTQ.

Autoriser davantage de GPAI open source offre plus de transparence dans leur développement. Sans GPAI open source, le public en saura moins et les grandes entreprises technologiques auront plus d’influence sur la conception et l’exécution de ces modèles. Notamment, les chercheurs de ces entreprises n’ont pas les mains entièrement libres – rappelons que les critiques des grands modèles linguistiques de Google étaient au centre du conflit qui a entraîné le licenciement de l’un des chercheurs vedettes de l’entreprise, le Dr Timnit Gebru.

De plus, en décourageant la GPAI open source, il pourrait y avoir une plus grande dépendance aux modèles GPAI d’entreprise qui sont cachés derrière les API. Étant donné que les API limitent la façon dont un utilisateur peut interagir avec un modèle GPAI, même un modèle GPAI bien documenté qui n’est disponible que via une API peut être beaucoup plus difficile à utiliser en toute sécurité qu’un modèle GPAI open source.

Réglementer les applications risquées et nuisibles, pas les modèles d’IA open source

Sur le net, les modèles d’IA open source offrent une valeur sociétale considérable, mais le traitement par le Conseil de la GPAI (open source et autres) est également un écart notable par rapport à la perspective plus large de l’AIA, appelée son approche « basée sur le risque ». Dans la proposition initiale de la Commission européenne, les exigences réglementaires n’étaient appliquées qu’à certaines applications risquées de l’IA (comme l’embauche, la reconnaissance faciale ou les chatbots), plutôt qu’à l’existence d’un modèle. Ainsi, les modèles GPAI auraient été exemptés jusqu’à ce qu’ils soient utilisés pour une application couverte par l’approche basée sur les risques.

Le projet d’AIA du Conseil comprend deux exemptions qui s’appliquent de manière circonstancielle aux modèles GPAI open source, mais les deux posent de sérieux problèmes. La première exemption exclut tous les modèles d’IA qui ne sont utilisés qu’à des fins de recherche et de développement de l’intégralité de l’AIA. Pourtant, les développeurs open source sont surtout motivés par l’idée de créer des choses que les gens utilisent, ce qui signifie que cette restriction diminue l’incitation à contribuer à l’IA open source. La deuxième exemption permet aux modèles GPAI d’être exemptés si ses développeurs interdisent et parviennent à empêcher une utilisation abusive du modèle. Cependant, il est totalement impossible pour les développeurs open source de surveiller et d’empêcher de manière réaliste les abus une fois qu’ils ont publié un modèle. Ces exemptions ne dégageront pas suffisamment les développeurs d’IA open source de leurs responsabilités réglementaires ou de leur responsabilité légale.

En conséquence, les développeurs open source auraient raison de s’inquiéter de la manière dont les différents régulateurs des États membres de l’UE interprètent l’AIA. De plus, il n’est pas difficile d’imaginer qu’à la suite d’un résultat désastreux d’une application d’un modèle GPAI, l’entreprise responsable tente de détourner le blâme et la responsabilité légale en poursuivant les développeurs open source sur lesquels ils ont construit leur travail. Ces deux sources de responsabilité potentielle créeraient une incitation significative à ne pas publier les modèles OSS GPAI, ou éventuellement tout logiciel contenant un modèle GPAI.

En fin de compte, la tentative du Conseil de réglementer l’open source pourrait créer un ensemble alambiqué d’exigences qui mettent en danger les contributeurs d’IA open source, probablement sans améliorer l’utilisation de GPAI. Les modèles d’IA open source offrent une valeur sociétale considérable en remettant en question la domination de la GPAI par les grandes entreprises technologiques et en permettant au public de mieux connaître la fonction de l’IA. L’ancienne approche du Conseil européen – exempter l’IA open source jusqu’à ce qu’elle soit utilisée pour une application à haut risque – conduirait à de bien meilleurs résultats pour l’avenir de l’IA.

Google est un donateur général et sans restriction de la Brookings Institution. Les découvertes, interprétations et conclusions publiées dans cet article sont uniquement celles de l’auteur et ne sont influencées par aucun don.

Vous pourriez également aimer...