Par Antoine Bou­tet, INSA Lyon – Uni­ver­si­té de Lyon

Nos don­nées per­son­nelles cir­culent sur Inter­net : nom, adresses, coor­don­nées ban­caires ou de sécu­ri­té sociale, loca­li­sa­tion en temps réel… et les affaires qui y sont liées se font une place pérenne dans le débat public, du scan­dale Face­book-Cam­bridge Ana­ly­ti­ca au vol de don­nées à la Croix-Rouge, en pas­sant par les récents blo­cages d’hôpitaux par des ran­çon­gi­ciels (ou ran­som­ware) et l’inter­dic­tion de l’application Tik­Tok pour les fonc­tion­naires de plu­sieurs pays.

Mais si l’on sait de plus en plus que nos don­nées per­son­nelles sont « pré­cieuses » et offrent des pos­si­bi­li­tés sans pré­cé­dent en matière de com­mer­cia­li­sa­tion et d’innovation, il est par­fois dif­fi­cile de sai­sir ou d’expliquer pour­quoi il fau­drait les protéger.

Quels sont les risques liés à la divulgation de mes données personnelles ?

Le pre­mier risque concerne la perte du contrôle sur nos propres don­nées. C’est ce qui arrive par exemple quand on auto­rise le tra­çage par des sites ou des appli­ca­tions : on auto­rise l’enregistrement de nos acti­vi­tés sur le Web ou sur notre smart­phone (pages visi­tées, géo­lo­ca­li­sa­tion) et l’échange de ces don­nées, et, une fois cet accord don­né, nous n’avons plus aucun pou­voir sur la cir­cu­la­tion de nos données.

Ces infor­ma­tions sont uti­li­sées le plus sou­vent pour du pro­fi­lage qui per­met d’alimenter l’économie de la publi­ci­té per­son­na­li­sée régie doré­na­vant par des plates-formes d’enchères valo­ri­sant les don­nées rela­tives aux pro­fils uti­li­sa­teurs contre des empla­ce­ments publicitaires.

Mais, ces infor­ma­tions peuvent éga­le­ment être uti­li­sées à mau­vais escient. La connais­sance de votre loca­li­sa­tion peut aider le pas­sage à l’acte d’un cam­brio­leur par exemple, et la connais­sance de vos centres d’intérêts ou opi­nion poli­tique peut vous expo­ser à des opé­ra­tions d’influence.

Le scan­dale Cam­bridge Ana­ly­ti­ca en est un exemple, avec l’exploitation de don­nées per­son­nelles de mil­lions d’utilisateurs Face­book pour des cam­pagnes de dés­in­for­ma­tion ciblées afin d’influencer des inten­tions de vote. Plus récem­ment, les révé­la­tions du Monde sur les entre­prises de dés­in­for­ma­tion indiquent que cette pra­tique n’est pas un cas isolé.

Un autre risque concerne l’hame­çon­nage : si des infor­ma­tions per­son­nelles sont pré­sentes dans un cour­riel ou SMS frau­du­leux, il vous paraî­tra plus réa­liste et abais­se­ra vos bar­rières de vigi­lance. L’hameçonnage sert sou­vent à infec­ter la cible avec un ran­çon­gi­ciel (ran­som­ware en anglais) : les cyber­cri­mi­nels uti­lisent des infor­ma­tions per­son­na­li­sées pour gagner la confiance des des­ti­na­taires et les inci­ter à ouvrir des pièces jointes, ou à cli­quer sur des liens ou docu­ments mal­veillants, ce qui per­met dans un second temps de ver­rouiller les don­nées de la vic­time et d’en inter­dire l’accès. Une ran­çon est ensuite récla­mée pour les déverrouiller.

Bien que les attaques par ran­çon­gi­ciel les plus média­ti­sées concernent des orga­ni­sa­tions, des hôpi­taux par exemple, les par­ti­cu­liers sont éga­le­ment tou­chés.

Dans le cas de l’usurpation d’identité, une per­sonne mal­veillante uti­lise des infor­ma­tions per­son­nelles qui per­mettent de nous iden­ti­fier (« se log­ger ») sans notre accord : par exemple, en créant un faux pro­fil sur une plate-forme et en rédi­geant des com­men­taires sous l’identité de la vic­time afin de nuire à sa réputation.

À un autre niveau, la sur­veillance de masse exer­cée par cer­tains États cap­ture les infor­ma­tions per­son­nelles de leurs citoyens afin d’entraver la liber­té d’expression ou de ficher les indi­vi­dus par exemple. Une sur­veillance accrue peut tendre vers un sen­ti­ment d’absence de sphère pri­vée et ain­si bri­der le com­por­te­ment des individus.

En Europe, le RGPD (règle­ment géné­ral sur la pro­tec­tion des don­nées) limite la récolte des don­nées per­son­nelles, notam­ment par les gou­ver­ne­ments, qui doivent jus­ti­fier d’une rai­son suf­fi­sante pour toute surveillance.

Chacun d’entre nous a une empreinte numérique unique

Ces pro­blèmes touchent cha­cun d’entre nous. En effet, dans un monde de plus en plus numé­rique où nous géné­rons quo­ti­dien­ne­ment des don­nées à tra­vers notre navi­ga­tion sur Inter­net, nos smart­phones, ou nos montres connec­tées, nous avons tous une « empreinte numé­rique unique ».

En clair, il est géné­ra­le­ment pos­sible de réiden­ti­fier quelqu’un juste à par­tir des « traces » que nous lais­sons der­rière nous sur nos appa­reils numériques.

une empreinte digitale à la craie
Nos don­nées per­son­nelles per­mettent de nous iden­ti­fier, comme une empreinte digi­tale numé­rique. Immo Wegmann/Unsplash, CC BY

Par exemple, l’observation aléa­toire de quatre lieux visi­tés seule­ment repré­sente une signa­ture unique pour 98 % des indi­vi­dus. Cette uni­ci­té est géné­ra­li­sable dans un grand nombre de com­por­te­ments humains.

Cacher l’identité du pro­prié­taire de don­nées per­son­nelles uni­que­ment der­rière un pseu­do­nyme n’est pas une pro­tec­tion suf­fi­sante face au risque de réiden­ti­fi­ca­tion, il est néces­saire d’anonymiser les données.

Données synthétiques, apprentissage fédéré : les nouvelles méthodes pour protéger les données personnelles

Tels les membres d’un « black bloc » essayant d’être indis­tin­guables entre eux en s’habillant de manière iden­tique dans une mani­fes­ta­tion hou­leuse, l’anonymisation de don­nées a pour but d’éviter qu’une per­sonne ne se démarque du reste de la popu­la­tion consi­dé­rée, afin de limi­ter l’information qu’un cybe­rat­ta­quant pour­rait extraire.

Dans le cas de don­nées de géo­lo­ca­li­sa­tion, on pour­rait par exemple modi­fier les don­nées afin que plu­sieurs uti­li­sa­teurs par­tagent les mêmes lieux visi­tés, ou alors intro­duire du bruit pour ajou­ter une incer­ti­tude sur les lieux réel­le­ment visités.

Mais cette ano­ny­mi­sa­tion a un coût car elle « déforme » les don­nées et dimi­nue leur valeur : une trop grande modi­fi­ca­tion des don­nées brutes déna­ture l’information véhi­cu­lée dans les don­nées ano­ny­mi­sées. De plus, pour s’assurer de l’absence d’une empreinte réiden­ti­fiante, les modi­fi­ca­tions néces­saires sont très impor­tantes et sou­vent incom­pa­tibles avec nombre d’applications.

Trou­ver le bon com­pro­mis entre pro­tec­tion et uti­li­té des infor­ma­tions ano­ny­mi­sées reste un chal­lenge. À l’heure où cer­tains voient les don­nées comme le nou­veau pétrole du XXIe siècle, l’enjeu est de taille car une don­née ano­nyme n’est plus consi­dé­rée comme une don­née per­son­nelle et échappe au RGPD, ce qui veut dire qu’elle peut être par­ta­gée sans consen­te­ment du propriétaire.

Cette dif­fi­cul­té de trou­ver un com­pro­mis accep­table entre pro­tec­tion et uti­li­té des don­nées au tra­vers de méca­nismes d’anonymisation a fait évo­luer les pra­tiques. De nou­veaux para­digmes de pro­tec­tion des don­nées per­son­nelles ont vu le jour.

Une pre­mière ten­dance consiste à géné­rer des don­nées syn­thé­tiques repro­dui­sant les mêmes pro­prié­tés sta­tis­tiques que les vraies données.

Ces don­nées géné­rées de manière arti­fi­cielle ne sont par consé­quent pas liées à une per­sonne et ne seraient plus enca­drées par le RGPD. Un grand nombre d’entreprises voient en cette solu­tion des pro­messes de par­tage d’information moins limi­tées. En pra­tique, les risques rési­duels des modèles de géné­ra­tion syn­thé­tique ne sont pas négli­geables et sont encore à l’étude.

Une autre solu­tion limi­tant le risque de par­tage de don­nées per­son­nelles est l’appren­tis­sage fédé­ré. Dans l’apprentissage machine conven­tion­nel, les don­nées sont cen­tra­li­sées par une enti­té pour entraî­ner un modèle.

Dans l’apprentissage fédé­ré, chaque uti­li­sa­teur se voit attri­buer un modèle qu’il entraîne loca­le­ment sur ses propres don­nées. Il envoie ensuite le résul­tat à une enti­té qui s’occupe d’agréger l’ensemble des modèles locaux. De manière ité­ra­tive, cet appren­tis­sage décen­tra­li­sé per­met de créer un modèle d’apprentissage sans divul­guer de don­nées personnelles.

Ce nou­veau para­digme de pro­tec­tion des don­nées per­son­nelles sus­cite beau­coup d’engouement. Cepen­dant, plu­sieurs limi­ta­tions sub­sistent, notam­ment sur la robus­tesse face aux acteurs mal­veillants qui sou­hai­te­raient influen­cer le pro­ces­sus d’entraînement. Un par­ti­ci­pant pour­rait par exemple modi­fier ses propres don­nées pour que le modèle se trompe lors d’une tâche de clas­si­fi­ca­tion par­ti­cu­lière.

Cet article a été ini­tia­le­ment publié par notre confrère The Conver­sa­tion sous licence Crea­tive Commons.