Big data contre COVID-19: opportunités et défis de confidentialité

Toutes les ressources disponibles doivent être utilisées pour exploiter le nouveau coronavirus COVID-19. Dans quelle mesure la technologie numérique peut-elle aider? Quels sont les risques liés à l'utilisation des mégadonnées pour lutter contre COVID-19 et quelles politiques peuvent atténuer les limitations que ces risques imposent?

Informations pouvant être mises à disposition

De nombreuses informations pertinentes pour COVID-19 sont potentiellement disponibles dans le monde numérique.

  • Les utilisateurs des réseaux sociaux fournissent volontairement de nombreuses informations personnelles, notamment des données démographiques (âge, sexe) et leur emplacement;
  • Les utilisateurs de réseaux mobiles fournissent les informations nécessaires pour recevoir et payer le service, et fournissent également des informations de localisation.
  • Les consommateurs qui recherchent des informations sur la santé peuvent fournir volontairement des informations supplémentaires.

Les données de localisation des appareils mobiles ont suscité un vif intérêt pour les gouvernements au cours des dernières semaines. Le réseau mobile connaît votre position, que vous soyez dans votre pays d'origine ou en itinérance internationale.

De nombreux pays ont travaillé avec les fournisseurs de services et d'infrastructures de communication pour améliorer progressivement ces informations de localisation, principalement pour améliorer la précision avec laquelle les utilisateurs mobiles peuvent demander de l'aide en cas d'urgence (voir Marcus, 2010; Marcus, 2014) .

Défis de confidentialité

Cependant, l'utilisation de données personnelles identifiables est limitée dans la plupart des pays développés démocratiques. L'Union européenne met en œuvre le Règlement général sur la protection des données (RGPD) (Union européenne, 2016), qui repose sur la reconnaissance de la vie privée des individus en tant que droit de l'homme. Le fait que l'UE ait adopté un cadre horizontal global cohérent pour la vie privée est généralement positif; cependant, le cadre est relativement rigide. Ce manque de flexibilité devient évident maintenant, lorsqu'une réponse agile est nécessaire à une menace profonde pour la vie et la sécurité des Européens.

L'utilisation de données qui ne sont pas personnellement identifiables est en général sans restriction, et plusieurs instruments juridiques au niveau de l'UE encouragent activement la mise à disposition de données non personnelles et d'informations du secteur public comme moyen de promouvoir l'efficacité économique (Union européenne, 2018 et 2019) .

Pour une utilisation commerciale des données personnelles identifiables, le RGPD met en place un certain nombre de règles de bon sens. L'utilisateur doit être informé de la façon dont les données seront utilisées, à quels tiers elles seront fournies et comment ils utiliseront les données, combien de temps les données seront conservées, etc.

Le champ d'application du RGPD ne couvre pas l'utilisation des données personnellement identifiables collectées par les gouvernements à des fins d'application de la loi, ce qui relève de la compétence des États membres.

La pratique courante dans la plupart des pays démocratiques développés implique une combinaison de ces éléments:

  • Les données qui ne sont pas personnellement identifiables (y compris les données anonymisées) ou les données non personnelles sont soumises à peu ou pas de restrictions.
  • Afin de collecter des données personnellement identifiables mais sans contenu, les pouvoirs publics doivent répondre à un standard de preuve de besoin assez modeste. Cela a tendance à être le cas pour les enregistrements de données d'appel (une indication quant à qui a été appelé depuis un téléphone ou un appareil Internet) et pour les données de localisation des utilisateurs.
  • Afin de collecter des données qui sont personnellement identifiables et qui contiennent un contenu réel, un niveau assez élevé de preuve de besoin doit être respecté. En règle générale, un tiers indépendant tel qu'un magistrat doit être convaincu qu'il existe des motifs valables de soupçonner l'individu, par exemple d'un crime passé ou futur probable.

Afin de comprendre comment ces grands principes interagissent avec les besoins probables en termes de lutte contre COVID-19, il est utile de réfléchir à certains des cas d'utilisation dans lesquels les mégadonnées ont été appliquées.

Façons dont le Big Data a été utilisé à ce jour

Il existe à ce jour trois formes principales d’utilisation: (1) la planification stratégique; (2) le suivi des individus (éventuellement infectés); et (3) la fourniture de conseils aux personnes concernées et éventuellement infectées.

Planification stratégique

L'une des utilisations les plus immédiates et les plus prometteuses des mégadonnées dans la lutte contre le COVID-19 a été comme moyen de prédiction, d'analyse et de planification stratégique pour les gouvernements nationaux et les autorités sanitaires nationales.

L'épi-risque, par exemple, est un modèle prédictif qui examine comment la maladie se déplace d'une ville à une autre en fonction des déplacements en avion et des déplacements domicile-travail. Il s'appuie sur des statistiques sur le nombre de cas et de décès connus fournies par les autorités nationales et sur l'intégration avec les données du trafic aérien fournies par la base de données OAG (1). L'espoir est que des données supplémentaires provenant des réseaux sociaux puissent également être intégrées. Selon le chercheur principal, «Ce que nous faisons en tant qu'informaticiens et épidémiologistes informatiques est de fournir (les médecins, infirmières et personnels de santé publique sur le terrain) avec intelligence pour anticiper le mouvement de l'ennemi «  (Valse, 2020a).

Autre exemple, une analyse de l’évolution de la maladie en Chine (Li et al, 2020) peut servir à clarifier la mesure dans laquelle les individus qui n'étaient pas connus pour être infectés ont contribué à la propagation de la maladie. Les auteurs ont constaté que les cas non documentés (c'est-à-dire les cas qui n'avaient pas été signalés) n'étaient qu'à moitié aussi contagieux que les cas documentés. Néanmoins, étant donné que 86% des cas n'ont probablement pas été signalés, ils ont estimé qu'entre 82% et 90% de tous les cas chinois à l'échelle nationale du 10 au 23 janvier étaient infectés par des personnes dont les infections n'étaient pas documentées. Pour estimer la mobilité entre les villes chinoises autour du Nouvel An chinois (qui était le 25 janvier en 2020), les chercheurs ont extrapolé à partir de 1,7 milliard d'enregistrements de voyages en 2018 enregistrés par le marchand de commerce électronique TenCent. Cela permet de démontrer que les mégadonnées peuvent jouer un rôle crucial dans des analyses précieuses.

La planification stratégique en Autriche, en Italie et en Allemagne a utilisé les données de localisation mobile fournies par les opérateurs de réseaux mobiles. Les données sur la mobilité de Deutsche Telekom sont utilisées pour estimer dans quelle mesure la population allemande se conforme aux demandes ou aux ordres de rester chez elle. En Italie, les données fournies par les opérateurs de réseaux mobiles Telecom Italia, Vodafone et WindTre démontrent que les mouvements dépassant 300 à 500 mètres dans la région de Lombardie ont diminué d'environ 60% depuis le 21 février, date à laquelle le premier cas dans la région a été identifié. En Autriche, A1 Telekom Austria Group fournit des données sur la mobilité à un outil tiers qui est généralement utilisé pour estimer le surpeuplement d'un domaine skiable, mais dans ce cas peut être utilisé pour estimer l'efficacité de l'éloignement social (Reuters, 2020 ).

Une caractéristique commune à toutes ces utilisations stratégiques des mégadonnées est qu'elles ne s'appuient généralement pas sur des données personnellement identifiables ou n'utilisent pas de données anonymisées. Cela évite la plupart sinon la totalité des problèmes de confidentialité.

Cette approche peut être considérée comme «Moins invasif que l'approche adoptée par des pays comme la Chine, Taïwan et la Corée du Sud, qui utilisent les relevés de localisation des smartphones pour retracer les contacts des personnes qui se sont révélées positives ou pour faire appliquer des ordonnances de quarantaine.» (Reuters, 2020) En effet, le défenseur autrichien de la confidentialité, Max Schrems, a observé que «tant que les données (de données de localisation mobile) sont correctement anonymisées, cela est clairement légal.» (Reuters, 2020)

Suivi des individus

Taïwan est généralement reconnu comme ayant mis en œuvre des mesures efficaces pour contenir le COVID-19, bien qu'il figure parmi les pays initialement considérés comme les plus menacés. Ils avaient tiré de précieuses leçons syndrome respiratoire aigu sévère (SRAS) épidémie en 2003, et a bénéficié d'un haut niveau de préparation.

L'un des ensembles de mesures les plus efficaces était un système de suivi des individus susceptibles d'être infectés. Dès le 27 janvier, les agences gouvernementales responsables ont intégré des données sur les antécédents de voyage des 14 derniers jours des personnes jugées à risque en raison de leurs antécédents de voyage, avec des informations liées à leurs cartes d'identité de santé. Les personnes à haut risque en raison de voyages récents dans les zones touchées ont été surveillées électroniquement via leur téléphone portable. Tous les hôpitaux, cliniques et pharmacies de Taïwan ont eu accès aux antécédents de voyage des patients potentiels et réels (Wang et al, 2020; Valse, 2020b).

Si de telles mesures étaient tentées en Europe, elles pourraient soulever des préoccupations bien plus grandes que les mesures stratégiques car les individus doivent être identifiés individuellement et parce que les mesures impliquent la combinaison de données normalement collectées à des fins différentes et sans rapport.

Cela a été une préoccupation centrale pour un système expérimental mis en œuvre par l'Université d'Oxford. Le plan est pour les individus de télécharger une application qui fournirait leur emplacement au UK National Health System. Le projet serait donc volontaire, contrairement à celui de la Chine, et le gouvernement britannique a annoncé qu'il supprimerait la date et « Ne pas rendre publics les mouvements des personnes infectées, comme cela a été fait en Corée du Sud » (Valentino-DeVries, 2020).

Conseils aux personnes potentiellement infectées

Contrairement à ces histoires relativement réussies, l'annonce ratée d'un site Web pour «Élargir considérablement les tests de dépistage du virus» par le président Trump le 13 mars a clairement montré la nécessité de gérer correctement les attentes et de résoudre les éventuels problèmes de perception. Lors d'une conférence de presse, Trump a déclaré à tort que Google fournirait un site Web permettant de diagnostiquer le COVID-19 à grande échelle. Trump semblait faire référence à un petit projet pilote pour la région de San Francisco en cours d'élaboration par Verily, une filiale des sciences de la vie de la société mère de Google, Alphabet. Le travail est à un stade très précoce. L'annonce de Trump était si loin de la marque que Google s'est senti obligé d'émettre une correction / rétractation rapide (Shear et Wakabayashi, 2020).

L'annonce doit être comprise comme une réponse politique à la critique d'une administration américaine qui a été sous le feu intense pour avoir prétendument échoué pendant trop longtemps à prendre au sérieux la crise du COVID-19.

Verily a été immédiatement submergé de demandes, ce qui a généré une vague de critiques. L'une des principales préoccupations, l'une des nombreuses, était que les utilisateurs devaient se connecter à l'aide d'un compte Google pour accéder au site. Cela a immédiatement suscité des inquiétudes quant à l'utilisation possible des données personnelles à des fins publicitaires et à d'autres fins commerciales indésirables (Wakabayashi et Singer, 2020).

Considérations légales

Il est peu probable que l'utilisation des mégadonnées dans la lutte contre COVID-19 soit entravée par des obstacles juridiques:

  • L'utilisation stratégique des mégadonnées ne repose que peu ou pas sur les données personnellement identifiables. Ce n'est donc pas un problème.
  • En vertu des traités de l'UE, la santé est une compétence partagée lorsque l'UE soutient ou complète les États membres. S'il y a une tension entre les règles de l'UE en matière de santé publique et de confidentialité, on peut raisonnablement s'attendre à ce que les règles de confidentialité prennent un siège arrière pendant une période de temps limitée.
  • De nombreux pays de l'UE fonctionnent déjà dans des conditions d'urgence nationale, permettant aux gouvernements de contourner les protections juridiques normales pendant la durée de l'urgence nationale.

En effet, le Comité européen de la protection des données (EDPB) a fait une déclaration publique le 19 mars 2020 qui est pleinement conforme à ces principes (EDPB, 2020). Ils notent que le RGPD autorise déjà les autorités de santé publique compétentes et les employeurs à traiter les données personnelles lorsque cela est nécessaire pour des raisons d'intérêt public important dans le domaine de la santé publique, comme c'est le cas lors d'une épidémie. Les mesures d'urgence sont autorisées, mais uniquement pour la durée de l'urgence. Les personnes concernées doivent être informées des principales caractéristiques des activités de traitement en cours. Des mesures de sécurité et des politiques de confidentialité adéquates doivent être mises en place. L'utilisation anonyme des données de localisation mobile est autorisée; cependant, l'utilisation de données de localisation mobile personnellement identifiables doit être évitée si possible, et si elle est utilisée doit être soumise à des garanties appropriées.

Les véritables obstacles à l'utilisation des données pour lutter contre le COVID-19 ont probablement peu à voir avec la légalité des mesures mises en place; ils ont plutôt bien plus à voir avec le risque de perte de confiance du public si l'utilisation de données personnellement identifiables dépasse, si les données personnellement identifiables peuvent être réutilisées à d'autres fins non liées, ou si la justification de l'utilisation de les données sont mal communiquées.

Implications pour les politiques publiques

Les implications pour la politique publique de l'UE sont assez claires. Les mégadonnées peuvent jouer un rôle constructif de nombreuses manières différentes pour aider l'UE à faire face à la crise du COVID-19.

  • L'utilisation de données non personnellement identifiables (y compris les données agrégées et / ou anonymes) auront tendance à ne pas poser de problème, mais la justification devrait néanmoins être clairement réfléchie et clairement communiquée.
  • À tel point que données personnellement identifiables est employé (sans le consentement préalable en connaissance de cause de l'individu), les autorités publiques nationales devraient veiller à ce qu'un certain nombre de conditions essentielles de bon sens (qui soient pleinement conformes au RGPD) soient remplies:
    • Les données ne peuvent être utilisées qu'aux fins justifiées prévues. L'utilisation de données personnellement identifiables à des fins commerciales qui ne seraient autrement pas autorisées sans consentement éclairé devrait être strictement interdite. L'utilisation de données à des fins publiques non liées (application de la loi, par exemple) devrait également être évitée.
    • Toutes les données personnellement identifiables doivent être soigneusement protégées contre les intrusions de pirates utilisant une bonne technologie de cybersécurité.
    • Une collecte de données inutilement large doit être évitée, car elle crée des risques (par exemple de vol d'identité).
    • Les périodes de conservation doivent être soigneusement étudiées. Pendant l'épidémie actuelle, il sera important de comprendre le risque de réinfection. Certaines données pourraient également être utiles pour lutter contre les futures épidémies, de sorte qu'une courte période de suppression n'est pas nécessairement l'approche politique la plus appropriée pour toutes les données de ce type.
    • Pour les données personnellement identifiables, il est particulièrement important que le gouvernement déclare clairement et précisément quelles données sont collectées, pourquoi elles sont collectées, avec qui (le cas échéant) elles seront partagées, comment elles seront sécurisées, et combien de temps il sera conservé. Sinon, il existe un risque important de perte de confiance du public dans les mesures prises.
  • Si les chercheurs de l'UE ont peur de collecter les données nécessaires à des fins légitimes, les États membres devraient être prêts à permettre une réponse sensible et flexible. Par exemple, un État membre pourrait émettre rapidement des «lettres de confort» pour rassurer les chercheurs sur le fait qu'ils ne seront pas poursuivis pour utilisation de bonne foi de données personnellement identifiables dans le cadre de projets qui constituent des recherches valables et précieuses. Au niveau de l'UE, la déclaration publique qui vient d'être publiée par l'EDPB (EDPB, 2020) apporte peut-être toute la clarté nécessaire pour le moment.

Les références

Comité européen de la protection des données (EDPB) (2020), «Déclaration sur le traitement des données à caractère personnel dans le contexte de l'épidémie de COVID-19», 19 mars 2020.

Union européenne (2016), Sur la protection des personnes physiques à l'égard du traitement des données à caractère personnel et sur la libre circulation de ces données, (Règlement (UE) 2016/679).

Union européenne (2018), Sur le (Règlement (UE) 2018/1807)

Union européenne (2019), Directive sur les données ouvertes et la réutilisation des informations du secteur public (Directive (UE) 2019/1024).

Kim, M.J .; et Denyer, S. (2020), «La Corée du Sud effectue 10 000 tests de coronavirus par jour. Les États-Unis luttent même pour une petite fraction de cela. », Washington Post, https://www.washingtonpost.com/world/asia_pacific/coronavirus-test-kits-south-korea-us/2020/03/13/007f14fc-64a1-11ea-8a8e-5c5336b32760_story.html.

Li, R. et al. (2020), «Une infection substantielle non documentée facilite la dissémination rapide du nouveau coronavirus (SARS-CoV2)», Science, 10.1126 / science.abb3221.

Marcus, J.S. (2013), «The need for PPDR Broadband Spectrum», étude pour le compte de TCAC, disponible sur: http://www.tandcca.com/Library/Documents/Broadband/WIK%20report%20on%20PPDR%20Spectrum.pdf.

Marcus, J.S .; Burns, J .; Jervis, V .; Wählen, R .; Carter, K .; Philbeck, I .; et Vary, P. (2010): «PPDR Spectrum Harmonization in Germany, Europe and Globally», http://www.cept.org/Documents/fm-49/1552/FM49_11_Info2_WIK_Report_PPDR_Spectrum_Harmonisation.

Reuters (2020), «European Mobile Operators Share Data for Coronavirus Fight», https://www.nytimes.com/reuters/2020/03/18/technology/18reuters-health-coronavirus-europe-telecoms.html.

Shear, M .; et Wakabayashi, D. (2020), «Trump Oversold a Google Site to Fight Coronavirus», New York Times, https://www.nytimes.com/2020/03/14/us/politics/trump-google-coronavirus. html? action = click & module = RelatedLinks & pgtype = Article.

Valentino-DeVries, J. (2020), «Traduire un outil de surveillance en un traqueur de virus pour les démocraties», New York Times, https://www.nytimes.com/2020/03/19/us/coronavirus-location-tracking.html?nl=todaysheadlines&emc=edit_th_200320&campaign_id=2&instance_id=16925&segment_id=22412&user_id=f3acea35b787c8880911720207b72071120

Wakabayashi, D .; et Singer, N. (2020), «Le site Web de test des coronavirus est mis en ligne et atteint rapidement sa capacité: le site de la société sœur de Google, Verily, a été déployé dans deux comtés du nord de la Californie dans l'espoir de guider les gens vers les tests de virus locaux», New York Times, https://www.nytimes.com/2020/03/16/technology/coronavirus-testing-website-google.html.

Waltz, Emily (2020a), «Comment les informaticiens tentent de prédire les prochains mouvements du coronavirus: Alessandro Vespignani décrit la lutte informatique contre l'épidémie de COVID-19», Spectre IEEE, https://spectrum.ieee.org/the-human-os/biomedical/devices/predicting-the-coronavirus-next-moves.

Waltz, Emily (2020b), «Les mégadonnées aident Taiwan à lutter contre le coronavirus: comment Taïwan a utilisé les mégadonnées, les nouvelles technologies et le gouvernement lourd pour contrôler la propagation du coronavirus, Spectre IEEE, https://spectrum.ieee.org/the-human-os/biomedical/devices/big-data-helps-taiwan-fight-coronavirus

Wang, C.J .; Ng, C.Y .; Brook, R.H. (2020), «Response to COVID-19 in Taiwan: Big Data Analytics, New Technology, and Proactive Testing», JAMA en ligne, https://jamanetwork.com/journals/jama/fullarticle/2762689.

(1) Pour une visualisation, voir https://tinyurl.com/uyjhmbq. Pour les statistiques de trafic OAG, voir https://www.oag.com/traffic-analyser.


Republication et référencement

Bruegel se considère comme un bien public et ne prend aucun point de vue institutionnel. Tout le monde est libre de republier et / ou de citer ce message sans consentement préalable. Veuillez fournir une référence complète, en indiquant clairement Bruegel et l'auteur concerné comme source, et inclure un hyperlien proéminent vers le message d'origine.

Vous pourriez également aimer...