Retour aux articles

Intelligence artificielle et détection massive de fraude fiscale grâce aux réseaux sociaux : un recadrage suffisant ?

Tech&droit - Intelligence artificielle, Données
15/11/2019
L’article 57 du projet de loi de finances pour 2020 qui autorise l'expérimentation d'algorithmes pour traquer certaines infractions fiscales et douanières a été voté le 13 novembre 2019. Un texte très largement réécrit pour donner davantage de garanties. Sans pour autant totalement rassurer.
Un algorithme pour espionner les contribuables et détecter si leur train de vie est en adéquation avec leurs déclarations au fisc ? Ou des lignes de code pour rendre plus opérante la lutte contre la fraude fiscale ? L’efficacité a-t-elle un prix que devra supporter le contribuable qui se sera épanché sur les réseaux sociaux ou les plateformes de mise en relation ?
 
Les opinions sur ce sujet sont assez tranchées. L’objectif affiché de cet article est en tout cas d’autoriser administrations fiscale comme douanière à collecter en masse les données déposées publiquement par les internautes sur les réseaux sociaux et les plateformes de mise en relation, afin de détecter davantage de comportements frauduleux (v. Réseaux sociaux et datamining : des algorithmes vont-ils devenir aviseurs fiscaux ?, Actualités du droit, 1er oct. 2019 et Machine learning, réseaux sociaux et administration fiscale : liaisons dangereuses ?, Actualités du droit, 27 oct. 2019).
 
Un texte qui a fait couler beaucoup de lignes dans la presse et a déclenché de vifs débats en commissions comme dans l’hémicycle, principalement autour de la proportionnalité entre atteinte projetée aux libertés individuelles et objectif de lutte contre la fraude.
 
Nouvelle étape avec l’examen du texte en séance publique le 13 novembre dernier. Pas moins de 64 amendements ont été déposés et 42 % d’entre eux adoptés. Que faut-il retenir de cet examen en séance ? Deux points, principalement : cette nouvelle rédaction restreint le champ d’application de ce traitement algorithmique et en renforce les garanties. Pas certain, néanmoins, que cela soit de nature à rassurer les plus inquiets.
 
Une expérimentation retreinte à trois types d’infraction
L’un des premiers apports de cette nouvelle rédaction de l’article 57, c’est la restriction du champ d’application de l’expérimentation aux/à :
  • activités occultes ;
  • domiciliations fiscales frauduleuses ;
  • certains manquements à la législation douanière : alcools, tabac et métaux précieux.
Comme tient à le souligner Gérald Darmanin, « Les algorithmes seront conçus dans ce but : seuls ces trois filets seront lancés, et seules les données correspondant à nos critères de recherche seront remontées ».
 
Une prise de position qui n’élude pas, pour autant, toutes les questions : « si l’administration fiscale, en chalutant, découvre des infractions – crimes, délits ou contraventions – ne la concernant pas, l’article 40 du Code de procédure pénale, qui dispose que tout agent public découvrant une infraction doit en saisir le procureur de la République s’appliquera-t-il, même dans le délai de cinq jours », s’interroge ainsi le député Charles de Courson  (TA AN n° 2272, compte rendu des débats, 13 nov. 2019) ? Réponse nécessairement négative pour le ministre, pour qui il ne pourra y avoir de remontées correspondant à d’autres critères que ceux définis.

Ce dont il s’agit avec cette restriction du champ d’application (TA AN n° 2272, amendement n° 2552 ; TA AN n° 2272, amendement n° 2168), c’est de recentrer le dispositif sur les cas les plus graves. Ce qui exclurait donc du champ de l’expérimentation 97 % des manquements fiscaux concernant les impositions donnant lieu à des obligations déclaratives.
 
Volume d’infractions concernées
– l’activité occulte représente en moyenne 1,8 % des redressements effectués, ente 2015 et 2018 ;
– domiciliation fiscale : en moyenne 160 à 170 contrôles fiscaux externes par an qui portent sur une domiciliation frauduleuse à l’étranger d’une personne physique.
TA AN n° 2272, amendement n° 2552
 
Et s’agissant des infractions douanières, ne seront pas concernées par ce traitement les infractions les moins graves et les plus nombreuses visées aux articles 411 et 412 du Code des douanes. Le dispositif est donc recentré sur les délits douaniers mentionnés aux articles 414, 414‑2 et 415 de ce code (TA AN n° 2272, amendement n° 2552).
 
Un net renforcement des garanties
Des données collectées  non seulement accessibles, mais également manifestement rendues publiques. – Pour que l’algorithme puisse les analyser, il faudra non seulement que les contenus soient accessibles, mais encore que l’utilisateur ait eu l’intention claire de les rendre publics. La nouvelle rédaction du 1er alinéa de l’article 57 est donc la suivante (TA AN n° 2272, amendement n° 2553) : les contenus collectés sont ceux « accessibles sur les sites internet des opérateurs de plateforme en ligne mentionnés au 2° du I de l’article L. 111‑7 du Code de la consommation, manifestement rendus publics par leurs utilisateurs ». Seront donc concernées les seules informations manifestement rendues publiques par les utilisateurs de certaines plateformes en ligne. Une précision qui permet de renvoyer explicitement aux termes de l’article 9 e) du règlement (UE) 2016/679 du 27 avril 2016, dit RGPD.
 
Collecte et stockage des données : aucune sous-traitance possible de la part de l’administration. – Le gouvernement a ,là encore, souhaité  donner des garanties au regard de la sensibilité et du volume des données collectées. Un amendement (TA AN n° 2272, amendement n° II-2558 ; TA AN, n° 2272, amendement n° II-2624) visant à interdire la sous-traitance dans la mise en œuvre de l’expérimentation prévue par l’article 57 a ainsi été adopté, de manière à sécuriser le fait que seuls des agents publics spécialement habilités pourront y avoir accès. Partant, traitement et stockage de ces données resteront de l’apanage exclusif de l’administration (DGFiP et douanes). Ce qui n’exclut pas cependant la possibilité de faire intervenir des sous-traitants à un autre stade, celui du développement des algorithmes (voir infra).
 
Des durées de conservation variables et plus courtes.– La période durant laquelle l’administration fiscale et l’administration des douanes et des droits indirects peuvent conserver les données a été à la fois précisée et raccourcie (TA AN n° 2272, amendement n° II-2559).
 
Concrètement, trois types de temporalité sont définis :
– les données sensibles ou manifestement sans lien avec les infractions recherchées devront être détruites au plus tard cinq jours après leur collecte (pas de délai spécifique dans la version précédente de l’article) ;
– les autres données devront être analysées sous trente jours et détruites si elles n’apparaissent pas pertinentes ;
– les informations utiles à la recherche des agissements mentionnés au premier alinéa pourront être conservées et exploitées par les agents de l’administration fiscale ou douanière pour une durée non précisée par l’article 57, mais qui pourrait être limitée à un an, selon Gérald Darmanin : « dans le cas des données intéressantes et parfaitement conformes à ce qu’autoriserait le législateur, on donne un an à la DGFiP et aux vérificateurs pour procéder, s’il y a lieu, au contrôle fiscal, en fonction des critères et des nouvelles possibilités que permettent les données : cela peut se faire aussi bien le lendemain de la réception de ces données que trois ou quatre mois plus tard » (TA AN n° 2272, compte rendu des débats, 13 nov. 2019).
 
Et, précision importante, seules les données « strictement nécessaires » pourront être conservées au-delà d’un délai de trente jours (versus toutes les données « de nature à concourir » à la constatation d’un manquement fiscal ou d’une infraction douanière dans la précédente version de l’article ; TA AN n° 2272, amendement n° 2560).
 
Une définition plus précise des données sensibles.– La nouvelle version de l’article 57 (TA AN n° 2272, amendement n° 3033) renvoie désormais à l'article 6 de la loi informatique et libertés pour définir les données sensibles (à savoir, la prétendue origine raciale ou l'origine ethnique, les opinions politiques, les convictions religieuses ou philosophiques ou l'appartenance syndicale d'une personne physique, ou encore les données génétiques, les données biométriques aux fins d'identifier une personne physique de manière unique, les données concernant la santé ou des données concernant la vie sexuelle ou l'orientation sexuelle d'une personne physique).
 
Passé le sourcing de l’infraction, un contrôle fiscal « classique ». – Qui dit traitement algorithmique des données dit contrôle fiscal algorithmique ? Une crainte exprimée lors des débats au Parlement, mais écartée par le ministre. Pour la députée Émilie Cariou, « il s’agit de faire en sorte qu’à l’issue de la collecte des données, un contrôle fiscal en bonne et due forme soit réellement programmé. Les données collectées ne peuvent pas donner lieu à des redressements automatiques réalisés par un algorithme : elles doivent être remises aux services chargés des contrôles fiscaux ou douaniers, qui mettront ensuite en place la procédure classique de contrôle, à laquelle s’appliqueront normalement toutes les garanties et tous les droits des contribuables » (TA AN n° 2272, compte rendu des débats, 13 nov. 2019).
 
Le ministre a apporté des garanties sur ce point, soulignant au passage que « même si un comportement correspondant à un des trois critères précédemment énoncés nous remontait, cela ne signifiera pas nécessairement qu’une infraction aura été commise : certaines alertes seront peut-être, en réalité, des faux positifs. C’est bien la vérification humaine qui déterminera alors s’il convient ou non de contrôler »  (TA AN n° 2272, compte rendu des débats, 13 nov. 2019).
 
Un encadrement précis du décret d’application.– Cette expérimentation aurait pu être autorisée par décret, a rappelé Gérald Darmanin. Mais au regard de la sensibilité du sujet, un fondement légal a été préféré. Pour tenter d'apaiser les craintes et donner de la visibilité sur le contenu du décret d’application, un amendement est venu préciser que la CNIL en sera saisie,  pour avis consultatif (TA AN n° 2272, amendement n° II-2130).
 
Un autre amendement (TA AN n° 2272, amendement n° II-2567) a fixé les grandes lignes de cette mesure réglementaire. Plus précisément, il est désormais prévu que ce décret devra détailler les conditions dans lesquelles le respect du principe de proportionnalité et de la pertinence des données est assuré lors de la mise en œuvre des traitements envisagés et ce dans les deux phases prévues de cette expérimentation, à savoir :
– la phase de développement ;
– la phase de déploiement du traitement, en prêtant particulièrement attention au fait qu’il s’agit d’algorithmes auto-apprenants.
 
Une expérimentation sous contrôle, avec une évaluation à mi-parcours et une analyste d’impact.–  L’article 57 prévoit désormais (TA AN n° 2272, amendement n° 2131) qu’une analyse d’impact relative à la protection des données à caractère personnel (AIPD) soit réalisée et transmise à la CNIL, dans les conditions prévues par la réglementation applicable.
 
Et un bilan intermédiaire sera réalisé au milieu de l’expérimentation prévue pour durer trois années, soit dix-huit mois avant son terme, contre six mois dans la précédente version.
 
Mais de nombreuses inquiétudes demeurent
Outre le point cardinal de la proportionnalité de ce dispositif sur lequel l’hémicycle n’a pas semblé pleinement convaincu, d’autres points de perplexité se sont imposés dans les débats. Parmi ceux-ci, la problématique de la conservation des données sensibles. Pour le député Philippe Latombe, dans la rédaction retenue il est indiqué que « seront recueillies des informations dont vous n’avez pas besoin, et que vous les conserverez cinq jours alors que vous ne devriez même pas les collecter. J’y vois un véritable problème de conformité à l’article 9 du RGPD » (TA AN n° 2272, compte rendu des débats, 13 nov. 2019). Plusieurs députés avaient pour cette raison proposé l’effacement sans délai des données sensibles collectées. Sans succès.
 
Autre grief soulevé toujours par Philippe Latombe, le champ des données collectées ratione personae. En pratique, la rédaction du texte étend la collecte aux tags et commentaires publiés par des tiers (pas seulement donc, les informations déposées par les personnes concernées). De facto, le risque serait avec cette rédaction de voir « fsouleurir de fabuleux aviseurs électroniques : tous les tags et tous les commentaires les plus malveillants et les plus malfaisants possibles utiliseront aussi ce système pour engorger votre algorithme ». Et juridiquement, il pourrait y avoir une contradiction entre la nécessité que les données soient manifestement rendues publiques et le fait qu'elles puissent être fournies par des tiers, sans autorisation de la personne mentionnée. Là encore, la question de la conformité de cette rédaction avec l’article 9 du RGPD pourrait se poser.

Une argumentation qui n’a pas été retenue par le rapporteur général, Joël Giraud, pour qui cette option « priverait votre dispositif de beaucoup d’efficacité. De fait (…) quand on veut « truander » par le biais d’un réseau social, on utilise un tiers de confiance, qui envoie différentes informations pour promouvoir l’activité occulte de son commanditaire qui ne sera pas concerné ». Sachant, poursuit Joël Giraud, que « techniquement, au surplus, il n’est pas toujours possible d’identifier la personne qui a publié le contenu en cause : il faudrait alors détruire toutes les données collectées, faute d’en identifier l’auteur avec certitude » (TA AN n° 2272, compte rendu des débats, 13 nov. 2019).

Des débats qui, last but not least, ont évoqué le risque d’inconstitutionnalité de cet article 57. « Nous n’avons pas du tout la même vision de ce que pourrait dire le Conseil constitutionnel, a ainsi souligné Philippe Latombe  (TA AN n° 2272, compte rendu des débats, 13 nov. 2019). « Vous rappelez que, dans certains cas, par exemple le verrou de Bercy, il n’a rien trouvé à redire. Cependant, en juin 2019, à l’occasion d’une question prioritaire de constitutionnalité sur la fraude sociale, il a précisé que la vie privée était plus importante que plusieurs dispositifs prévus il y a quelques années dans le cadre d’un PLFSS ».
 
Une certitude à ce stade, cet article n’a pas fini de faire parler de lui…
 
 
Ce que l’on sait sur le développement de ces algorithmes
La DGFiP n’aurait pas les moyens de développer en interne ces traitements : « cela me paraît compliqué », a indiqué le ministre. D’où :
– le possible recours à des sous-traitants : la DGFiP pourrait avoir se trouner vers d’« éventuels prestataires interviendraient sur le matériel et dans les locaux de l’administration, pas à l’extérieur sur un matériel qui n’appartiendrait pas à l’État » a expliqué Gérald Darmanin ; « Leurs travaux seraient placés sous la responsabilité et le contrôle uniques des agents de l’administration, et bien sûr en permanence tracés et surveillés », sachant que l’intégralité des travaux serait enregistrée et transmise à la CNIL ;
– mais avec des jeux de données anonymisées : « la construction de l’algorithme serait réalisée à partir de données anonymisées et non pas sur un échantillon ou sur une partie de véritables données collectées sur les réseaux sociaux ».
 

 
Source : Actualités du droit