Si vous avez déjà utilisé une montre intelligente ou une autre technologie portable pour suivre vos pas, votre fréquence cardiaque ou votre sommeil, vous faites partie du mouvement du « moi quantifié ». Vous soumettez volontairement des millions de points de données intimes pour collecte et analyse. The Economist a souligné les avantages de données personnelles de bonne qualité sur la santé et le bien-être : une activité physique accrue, des soins de santé plus efficaces et une surveillance constante des maladies chroniques. Cependant, tout le monde n’est pas enthousiasmé par cette tendance. Beaucoup craignent que les entreprises utilisent les données pour discriminer les pauvres et les vulnérables. Par exemple, les compagnies d’assurance pourraient exclure des patients sur la base de conditions préalables obtenues à partir du partage de données personnelles.
Pouvons-nous trouver un équilibre entre la protection de la vie privée des individus et la collecte d’informations précieuses ? Ce blog explore l’application d’une approche de populations synthétiques à New York, une ville réputée pour l’utilisation d’approches de mégadonnées pour soutenir la gestion urbaine, y compris pour les prestations sociales et les interventions politiques ciblées.
Pour mieux comprendre les taux de pauvreté au niveau des secteurs de recensement, World Data Lab, avec le soutien de la Sloan Foundation, a généré une population synthétique basée sur l’arrondissement de Brooklyn. Les populations synthétiques reposent sur une combinaison de microdonnées et de statistiques sommaires :
- Microdonnées se compose de renseignements personnels au niveau individuel. Aux États-Unis, ces données sont disponibles au niveau du Public Use Microdata Area (PUMA). Les PUMA sont des zones géographiques divisant l’État, contenant pas moins de 100 000 personnes chacune. Cependant, pour des raisons de confidentialité, les microdonnées ne sont pas disponibles au niveau plus précis des secteurs de recensement. Les microdonnées comprennent des informations au niveau des ménages et des individus, y compris le revenu du ménage de l’année dernière, la taille du ménage, le nombre de pièces et l’âge, le sexe et le niveau d’instruction de chaque personne vivant dans le ménage.
- Statistiques récapitulatives sont basés sur des populations plutôt que sur des individus et sont disponibles au niveau des secteurs de recensement, étant donné qu’il y a moins de problèmes de confidentialité. Les secteurs de recensement sont de petites subdivisions statistiques d’un comté, comptant en moyenne environ 4 000 habitants. À New York, un secteur de recensement équivaut à peu près à un bloc de construction. Comme pour les microdonnées, des statistiques sommaires sont disponibles pour les particuliers et les ménages. Au niveau du secteur de recensement, nous connaissons la population totale, la répartition démographique correspondante, le nombre de ménages dans différentes tranches de revenu, le nombre de ménages par nombre de pièces et d’autres variables similaires.
La difficulté avec cet arrangement est que, comme les microdonnées ne sont disponibles qu’au niveau du PUMA plus large, les différences entre les secteurs de recensement au sein de ce PUMA ne sont pas visibles. Par exemple, les décideurs pourraient passer à côté des disparités de revenus au sein d’un même quartier. En utilisant une approche de populations synthétiques, nous pouvons combiner ces deux ensembles de données pour simuler la distribution réelle sans porter atteinte à la vie privée des personnes.
Les populations synthétiques sont une combinaison de microdonnées réelles et de statistiques sommaires. Nous utilisons des variables que nous avons à la fois comme microdonnées réelles et comme statistiques récapitulatives (par exemple, le nombre de ménages, la répartition démographique de la population ou le revenu du ménage par tranches) pour échantillonner à partir des microdonnées de telle sorte que les contraintes du résumé statistiques (par exemple, le nombre total de personnes et de ménages dans un secteur de recensement) sont remplies. En contrôlant autant de variables que possible, nous créons un ensemble de microdonnées représentatif au niveau du secteur de recensement. Cet ensemble de données nous permet ensuite d’explorer l’hétérogénéité entre différents secteurs de recensement au sein d’un PUMA et de répondre à des questions plus détaillées (par exemple, comment le revenu diffère-t-il selon l’âge et le sexe dans un secteur de recensement). Bien que nous ne puissions contrôler que les variables incluses dans les deux ensembles de données, la population synthétique résultante contient également des informations sur toutes les autres variables incluses dans les microdonnées d’origine au niveau PUMA.
Figure 1. Brooklyn par bloc de construction – avec des populations synthétiques
Remarque : Population vivant en dessous du seuil de pauvreté spécifique à NYC (Flatbush et Midwood dans le comté de Kings PUMA, Brooklyn), microdonnées au niveau PUMA par rapport à la population synthétique. Sur la carte au niveau PUMA, le taux de pauvreté moyen est de 26,4 %. Dans la carte synthétique de la population, le taux de pauvreté varie de moins de 10 % à plus de 40 %.
Dans cet exemple, le PUMA Flatbush et Midwood dans le comté de Kings, NYC, a été choisi en raison de sa forte variance sur le revenu moyen. Il se compose de 44 secteurs de recensement, contenant environ 57 000 ménages au total et 155 000 personnes.
La figure 1 montre qu’en moyenne, en utilisant les microdonnées de niveau PUMA, environ 26,4 % de sa population vit en dessous du seuil de pauvreté de New York. Cependant, en utilisant l’approche des populations synthétiques, nous pouvons voir que certains secteurs de recensement (23 %) ont des niveaux de pauvreté nettement inférieurs à la moyenne, et certains (21 %) ont des niveaux de pauvreté plus élevés que la moyenne.
La ville de New York a déjà fait des progrès dans l’utilisation des mégadonnées pour cibler ses programmes sociaux. Par exemple, le Center for Innovation Through Data Intelligence (CIDI) a lancé The NYC Wellbeing Index at the Neighborhood Tabulation Area (NTA) pour fournir une compréhension de la façon dont les quartiers se comparent, aider les dirigeants à concentrer leurs stratégies dans une zone géographique spécifique et permettre un une évaluation plus gérable des résultats. Cependant, les NTA, qui comptent environ 15 000 habitants, sont moins granulaires que les secteurs de recensement. Comprendre quels secteurs de recensement ont la plus forte proportion de ménages vivant sous le seuil de pauvreté pourrait permettre une prestation plus ciblée et plus rentable des programmes sociaux.
Cette méthode est également prometteuse pour les pays en développement et les marchés émergents, car la granularité (géographique) fait souvent défaut dans l’analyse traditionnelle de la pauvreté, ce qui aiderait à un ciblage plus précis, car les taux de pauvreté moyens ont souvent diminué, en particulier dans les zones urbaines. Des pays comme les Philippines, la Thaïlande et la Colombie ont déjà expérimenté de telles méthodes de cartographie granulaire de la pauvreté hyper-granulaires qui pourraient être portées au niveau supérieur avec l’adoption de populations synthétiques.
Dans l’ensemble, les populations synthétiques peuvent nous donner la granularité dont nous avons besoin pour soutenir des interventions ciblées, maintenir la confidentialité et ouvrir de nouvelles opportunités au-delà de la recherche traditionnelle sur la pauvreté, comme l’analyse des modèles de consommation. Nous devons continuer d’explorer et de développer ces approches pour améliorer notre compréhension des défis urbains complexes.