Avec le déploiement d’outils d’intelligence artificielle par de nombreuses entreprises pour capitaliser sur les données personnelles qu’elles détiennent, la question se pose de la conformité de tels traitements aux exigences du RGPD, et plus particulièrement, de la base légale qu’il est possible de mobiliser pour ce faire.
Le Règlement européen sur l’intelligence artificielle a été adopté le 13 juin 2024 et prévoit une entrée en application progressive selon le type de systèmes d’IA concerné. En particulier, c’est le 2 août 2025 que les principes du Règlement s’appliqueront aux systèmes d’IA à usage général, les plus répandus.
Ce Règlement européen vise à déployer des obligations uniformes pour les opérateurs (c’est-à-dire les entreprises qui proposent des modèles d’IA) et à assurer une protection uniforme des citoyens de l’Union compte tenu des risques que les systèmes d’IA sont susceptibles d’engendrer. Plus précisément, le Règlement édicte des règles harmonisées sur la mise sur le marché et la mise en service des systèmes d’IA, nécessaires pour favoriser le développement, l’utilisation et l’adoption de l’intelligence artificielle au sein de l’UA, tout en garantissant un niveau élevé de protection des intérêts publics dont la santé, l’éducation, l’énergie, les transports, la justice, etc.
Les rédacteurs du Règlement ont rappelé que le RGPD reste s’appliquer pleinement dans le cas où un système d’IA permet de traiter des données à caractère personnel, ce qui peut être le cas dans certains contextes précis (identification biométrique à distance en temps réel à des fins répressives), mais aussi dans des contextes beaucoup plus généraux (utilisation de données d’entraînement comportant des données personnelles).
Au niveau national, chaque Etat-membre doit notamment désigner une autorité compétente pour réguler la commercialisation et l’utilisation des systèmes d’IA. En France, la CNIL estime qu’elle est toute désignée, sans pour autant qu’une décision ait été prise à ce jour par les pouvoirs publics. La CNIL travaille cependant activement à l’interprétation du Règlement et a émis de premières recommandations qui doivent être analysées pour préfigurer ce que seront les règles applicables lorsque le système d’IA (notamment les « IA génératives ») utilise des données à caractère personnel.
La CNIL s’est interrogée sur le développement des systèmes d’IA, si ce développement s’appuie sur des bases de données qui comportent des données à caractère personnel, que ces données personnelles soient l’objet même du traitement (par exemple, pour l’entraînement d’un système d’IA de diagnostic médical), ou que ces données personnelles figurent en base de manière incidente (par exemple, en cas de présence de plaques d’immatriculation dans des images utilisées pour entraîner le système).
Le fournisseur d’une IA, dès lors qu’il est confirmé qu’il agit en tant que responsable de traitement, doit déterminer la base légale qui l’autorise à utiliser des données personnelles dans le cadre du développement de son IA.
Il existe plusieurs façons de constituer cette base de données :
- Le fournisseur peut les collecter directement auprès des personnes concernées (il collecte expressément ces données pour développer son IA) ;
- Le fournisseur peut les collecter à partir de sources ouvertes sur internet (ce qui implique nécessairement de vérifier la licéité de ces sources et la faculté de les réutiliser à d’autres fins que celles pour lesquelles elles sont été initialement collectées), toujours directement aux fins de développer son IA ;
- Le fournisseur a collecté les données auprès des personnes concernées dans un autre contexte (ex : un centre de santé qui collecte les données des patients, sur lesquelles il souhaite mener une recherche médicale et développer à cette fin une IA) ;
- Le fournisseur n’a pas collecté les données directement auprès des personnes concernées, mais les obtient de la part d’un autre responsable de traitement (collecte indirecte), ou à partir d’une base publiquement accessible mais constituée pour une autre finalité.
Dans tous les cas, le fournisseur qui va utiliser ces données pour entraîner son IA (ou confier ces traitements d’entraînement à un prestataire pour son compte) doit s’assurer de la licéité de la collecte et de la réutilisation des données.
Le plus souvent, le responsable de traitement qui souhaite développer un système d’IA, et notamment l’entraîner au moyen des données collectées dans un ou plusieurs des contextes évoqués ci-dessus, souhaite recourir à son intérêt légitime en tant que base légale.
La CNIL reconnaît que c’est souvent la base légale la plus appropriée, notamment quand les données n’ont pas été collectées sur la base du consentement des personnes. Mais le recours à l’intérêt légitime repose classiquement sur trois conditions :
- Un intérêt réellement légitime et licite ;
- Une exigence de nécessité stricte ;
- L’absence d’atteinte disproportionnée aux droits et intérêts de la personne concernée compte tenu de ses attentes raisonnables.
Le 19 juin 2025, la CNIL est venue apporter des précisions sur le recours à la base légale de l’intérêt légitime pour développer un système d’IA à partir de données à caractère personnel.
Un intérêt réellement légitime
La première condition implique d’établir, et de documenter, le fait que le responsable de traitement poursuit un intérêt légitime, c’est-à-dire licite, suffisamment précis, et actuel.
En matière d’IA, cette légitimité peut par exemple être justifiée parce que l’organisme mène des travaux de recherche scientifique, facilite l’accès public à certaines informations, développe de nouvelles fonctionnalités pour ses clients utilisateurs ou propose un agent conversationnel aux fins de les assister, améliore un produit ou encore veut détecter des comportements frauduleux.
On le voit, la notion « d’intérêt légitime » que peut invoquer le responsable de traitement intègre le plus souvent une dimension liée à l’intérêt des personnes concernées elles-mêmes.
Toutefois, l’intérêt légitime peut également avoir une visée commerciale (donc plus centrée sur l’intérêt du responsable de traitement lui-même), tant qu’elle reste en rapport strict avec les activités commerciales de l’organisme.
On retrouve ici des limitations classiques. A titre d’exemple, puisque la publicité ciblée est interdite par le DSA à destination des publics mineurs, l’utilisation de leurs données pour entraîner une IA à des fins de publicité ciblée vers des mineurs est donc également interdite.
De même, l’utilisation de données personnelles aux fins d’entraîner un système d’IA qui est purement et simplement interdit par le Règlement IA (telle qu’une IA exploitant les vulnérabilités physiques ou mentales, ou une IA notant les personnes selon leur comportement social), et donc logiquement interdite également.
En outre, l’intérêt légitime doit nécessairement être porté à la connaissance des personnes concernées, selon le principe de transparence qui innerve le RGPD. Cela implique d’indiquer clairement la finalité poursuivie par le traitement.
Un traitement réellement « nécessaire »
La deuxième condition, celle de la nécessité, rejoint l’impératif transverse de minimisation, et l’exigence de privacy by design : le traitement considéré doit être nécessaire, et la finalité poursuivie ne doit pas pouvoir être atteinte par d’autres moyens moins intrusifs. Le développement du système d’IA doit donc être justifié par l’inexistence de moyen plus simple, ou moins « consommateur » de données, pour y parvenir.
Le responsable de traitement doit donc s’interroger sur le caractère incontournable des données personnelles qu’il souhaite utiliser pour développer le système d’IA, et documenter le fait que ces données sont indispensables, sans lesquelles la finalité ne peut être atteinte. Le responsable de traitement doit donc pouvoir prouver que le caractère identifiant des données ne peut pas être supprimé (i.e. il ne peut pas entraîner le système d’IA avec des données fictives ou anonymes).
Une finalité respectueuse des droits et libertés des individus
La troisième condition est de s’assurer que la finalité poursuivie ne menace pas les droits et libertés fondamentaux des personnes concernées, ce qui implique de procéder à la « mise en balance » des intérêts afin :
- D’établir les bénéfices qu’il est possible tirer du traitement : plus ce bénéfice est grand, plus la balance sera favorable. Ou parle ici non seulement de l’intérêt pour le responsable de traitement, mais aussi et surtout de celui que peuvent en tirer les personnes concernées elles-mêmes, voire la société dans son ensemble : ainsi par exemple, l’intérêt purement commercial du responsable de traitement pèsera forcément moins lourd qu’un enrichissement scientifique collectif, qu’un renforcement de la suppression des contenus illicites en ligne, ou qu’une lutte améliorée contre la fraude ;
- D’identifier les incidences négatives possibles sur les personnes concernées. Il convient ici d’être imaginatif. La CNIL évoque plusieurs types de risques, et notamment :
- Les risques pesant sur le respect de vie privée ou la confidentialité des données des personnes, sur leurs droits fondamentaux dont leur liberté d’expression (avec le risque d’autocensure que peut entraîner le sentiment de surveillance lié à l’IA) ;
- Les risques d’atteinte à la propriété intellectuelle (dont la propriété des bases de données publiquement disponibles sur lesquelles des robots seraient appliqués afin de « scraper » les données) ;
- Les risques d’atteinte à la réputation des personnes, de propagation de fausses informations, ou d’usurpation d’identité, si le système d’IA produit du contenu lié à la personne concernée (tel qu’un article de presse généré par l’IA) ;
- Les risques de ségrégation (biais discriminatoires) ou autres risques éthiques graves.
Le responsable de traitement retrouve ici la discipline à laquelle il est confronté lorsqu’il doit mettre en œuvre une AIPD : il doit réfléchir de manière très proactive à toutes les conséquences négatives que l’IA, dans son développement ou son utilisation, pourraient faire courir aux personnes dont les données sont traitées, a fortiori si le système d’IA est une IA « à haut risque » auquel cas le responsable de traitement doit aussi se référer aux typologies de risques mentionnés dans le Règlement IA ;
- D’identifier les attentes raisonnables des personnes concernées (selon notamment que leurs données sont librement accessibles sur internet ou non, et selon la proximité de la finalité poursuivie par l’IA par rapport à la finalité initiale qui a présidé à la collecte de leurs données).
- Ces attentes doivent être jaugées en fonction de l’information initialement dispensée auprès des personnes concernées, mais aussi du degré de confidentialité auquel la personne s’attend en fonction du service dont elle a bénéficié précédemment (la CNIL indique par exemple que « l’utilisation d’échanges privés entre deux personnes qui utilisent un service de réunion virtuelle en ligne pour le développement ou l’amélioration d’un modèle d’IA permettant de résumer des réunions n’entre pas dans les attentes raisonnables des personnes. » ;
- Elles dépendant également du contexte et de la nature du service dans le cadre duquel les données ont été initialement collectées, et de la portée de l’outil d’IA qui serait ainsi entraîné avec les données ;
- Elles dépendant encore du contexte dans lequel les données ont été collectées, notamment si elles le sont non pas auprès de la personne, mais à partir de sites publiquement disponibles (exemple de la pratique de « scraping ») : les personnes savent que leurs données sont publiquement consultables, mais ne s’attendent pas nécessairement à ce qu’elles soient absorbées et utilisées pour entraîner une IA (notamment lorsque les bases de données en question sont protégées par le droit du producteur de bases de données, voire par des mesures techniques empêchant l’utilisation de robots) ;
- La CNIL fournit des exemples de traitements conformes aux attentes raisonnables, tel que l’entraînement d’un agent conversationnel à partir des échanges du responsable de traitement avec les utilisateurs de son service, si le responsable de traitement a pris soin de les en informer ainsi que des aléas liés, et si la personne n’a pas fait valoir son droit d’opposition ;
- De définir des « mesures additionnelles » permettant de limiter les incidences du traitement. Cela va au-delà des mesures techniques et organisationnelles classiquement exigées notamment pour assurer le principe de minimisation, mais vise des mesures complémentaires telles que l’anonymisation à bref délai, la pseudonymisation, l’utilisation de données agrégées, le droit d’opposition discrétionnaire à l’utilisation des données aux fins d’entraînement de l’IA, la transparence et l’auditabilité du développement de l’IA, ou encore diverses mesures techniques contre la mémorisation de données aberrantes, contre les extractions ou de « régurgitation » ainsi qu’une information complémentaire adressée aux personnes sur ces risques – qui va donc bien au-delà des exigences classiques des articles 12 à 14 du RGPD…).
Sur ce dernier point, la CNIL préconise des publications d’informations permettant une « acculturation » du public au fonctionnement des IA, impliquant des efforts de vulgarisation opérationnelle (i) du fonctionnement des IA et des résultats obtenus, (ii) des notions d’apprentissage, d’inférence et de mémorisation, ou encore (iii) des risques encourus.
C’est dire ici que les entités conceptrices et utilisatrices de systèmes d’IA devront sacrifier à des explications circonstanciées, précises et opérationnelles qui dépassent ici de loin l’aspect juridique et visent à développer, via des campagnes médiatiques et des procédures de gouvernance, une bonne connaissance par le grand public des tenants et aboutissants des IA qui se multiplient dans leur quotidien.
Le recours à l’intérêt légitime en tant que base légale soutenant le développement et l’entraînement des systèmes d’IA est donc reconnu possible par la CNIL, qui admet qu’il sera largement invoqué, mais cela implique de la part des responsables de traitement un renforcement considérable de la fameuse « mise en balance des intérêts », ainsi que des mesures techniques préventives d’une part, et des mesures de transparence et d’information d’autre part.
Thomas Beaugrand, Counsel
L’activité de Thomas Beaugrand porte sur le droit du numérique, le droit de la data et le droit de l’e-commerce.
Une question ?