L’échange de données et la gouvernance sont essentiels au développement de l’intelligence artificielle open source (IA) afin d’offrir une occasion de démocratiser le progrès technologique et de réduire la concentration du pouvoir dans l’industrie de l’IA. Mais qu’est-ce que l’IA open source ? IBM indiquent qu’il s’agit de ces modalités qui ont un code source d’accès libre afin que n’importe qui puisse l’utiliser, le modifier et le distribuer, c’est-à-dire qu’ils sont destinés au public et faciliter l’expérimentation. En conséquence, il est possible que les développeurs indépendants puissent concevoir des applications créatives, des solutions pratiques et des cas d’utilisation commerciale basés sur l’IA. Mais sa viabilité dépend de la diversité des ensembles de données de haute qualité.
C’est précisément dans la génération de cadres solides de gouvernance des données qui met l’accent sur le rapport technique « Data Governance in Open Source. AI Enabling Responsible and Systemic Access » élaboré par les organisations Open Future et la Open Source Initiative (OSI). Ses pages mettent l’accent sur l’échange responsable d’informations, sa gestion par les communautés de développement et les pratiques qui concilient l’innovation et la protection des droits fondamentaux.
L’approche devrait être axée sur la qualité et la gouvernance. Si des cadres de données communs sont adoptés, la participation du public à l’écoute est élargie et les problèmes de gouvernance sont abordés, pris en compte et assumés, les développements d’IA open source garantiront leur durabilité et leur continuité dans le temps et la réalisation de leurs objectifs.
À cet égard, cinq défis mentionnés dans le rapport sont les suivants:
- Gouvernance des données et utilisation éthique. Il est nécessaire d’établir un équilibre entre la possibilité d’un partage ouvert et l’évolution de la propriété intellectuelle, de la vie privée et des droits communautaires. Sans ces cadres, il existe un risque d’exploitation, en particulier dans les pays du Sud et en développement, où l’extraction de données peut renforcer les inégalités systémiques qui existent déjà.
- Normes d’ouverture et de transparence. L’une des caractéristiques de l’IA open source devrait être la transparence. Ce principe inclut la clarté dans la documentation de l’origine des données, l’octroi de licences et la suppression des restrictions d’utilisation. La réalité montre qu’il n’y a pas quelques modèles étiquetés « ouverts » qui ne respectent pas ces principes.
- Les biais structurels dans les données. De nombreux ensembles de données utilisés dans le développement de l’IA reflètent des biais linguistiques, la géographie et le statut socioéconomique, ce qui se traduit par des systèmes qui faussent les communautés marginalisées, afin de pérenniser les inégalités et d’établir des obstacles à l’inclusion.
- Durabilité environnementale. La nature intensive des ressources utilisées dans le développement de l’IA a un impact sur l’environnement, mais l’échange de données ouvertes peut atténuer cela en réduisant la collecte de données redondantes et en promouvant des pratiques plus efficaces.
- Représentation des parties prenantes. À l’heure actuelle, les besoins des promoteurs et des grandes entreprises sont considérés comme prioritaires par rapport à ceux qui fournissent les données, les groupes concernés et les organisations d’intérêt public. Pour réduire cette lacune, il faut des modèles de gouvernance inclusifs et des approches collaboratives de la gestion des données.
Comment répondre à ces défis? Il est nécessaire d’établir un ensemble de définitions et de normes sur lesquelles créer de nouvelles stratégies pour l’avenir. Et cela produit un changement de paradigme.
Deux changements de paradigme
Ce changement de paradigme qui est nécessaire contient deux aspects essentiels. Premièrement, une approche fondée sur des données communes est nécessaire. Cela signifie que les perspectives axées exclusivement sur l’ouverture des données et la recherche de différentes formules pour la gouvernance de l’information, un pas qui nécessite d’innover dans l’octroi de licences et d’introduire des mécanismes innovants tout en préservant les fonctions centrales ouvertes des licences, doivent être laissées pour compte. Ce changement est nécessaire pour répondre à la complexité des données pouvant être utilisées dans la formation à l’IA, de sorte qu’il peut y avoir une grande variété de systèmes allant de données entièrement ouvertes aux cas dans ce type d’échange n’est ni souhaitable ni possible. Il sera nécessaire de développer différentes solutions pour chaque scénario.
Un deuxième changement de paradigme pour élargir l’univers du public d’intérêt. Il faudra passer de systèmes de travail qui donnent la priorité au développement de l’IA à une vision plus large, qui répond également aux besoins et aux objectifs d’une base de parties prenantes.
En ce sens, les titulaires de droits dans le domaine de la création ou de la recherche, ainsi que les administrateurs et les gestionnaires de collections ou de référentiels divers, devront être pris en compte.
Comment promouvoir la gouvernance des données?
Le document développe en détail un certain nombre de domaines d’action sur lesquels les efforts visant à améliorer la gouvernance des données devraient être ciblés en tant que source de connaissances pour la formation open source d’IA. Il s’agit de :
- Préparation et provenance des données. Établir des normes solides pour la collecte, la classification et l’anonymisation des données et des métadonnées qui garantissent la qualité et la traçabilité.
- Signalisation des préférences et des licences. Mettre au point des cadres d’exclusion volontaire et des congés sociaux pour permettre aux titulaires de droits et aux communautés de contrôler l’utilisation des données.
- Gardeurs et gestionnaires de données. Renforcer le rôle de ces chiffres, y compris les institutions intermédiaires qui facilitent l’échange de données tout en assurant une gouvernance éthique.
- Durabilité environnementale. Promouvoir des pratiques qui réduisent l’impact environnemental de l’IA grâce à des ensembles de données partagés et à des méthodes de formation efficaces.
- Réciprocité et indemnisation. Mettre en place des mécanismes pour faire en sorte que la valeur générée par les données partagées soit équitablement diffusée, en particulier aux communautés marginalisées et plus défavorisées.
- Intervention politique. Plaider en faveur de politiques publiques qui exigent de la transparence des données, encouragent leur échange et soutiennent la création d’ensembles ouverts.
Quel peut être le résultat si vous avancez dans ces domaines d’action? D’une part, les flux d’échange de données augmenteront en facilitant leur utilisation, en améliorant leur qualité et en garantissant une plus grande disponibilité des données ouvertes. D’autre part, les biens communs seront protégés contre les connaissances grâce à la reconnaissance des défis juridiques qui en découlent et à la mise en œuvre des licences pour assurer une gouvernance adéquate.