Les offices statistiques nationaux peuvent-ils façonner la révolution des données ?

Ces dernières années, les technologies de rupture en intelligence artificielle (IA) et l’utilisation de l’imagerie satellitaire ont permis de perturber la manière dont nous collectons, traitons et analysons les données. Facilité par l’intersection de nouvelles techniques statistiques et la disponibilité de (big) data, il est désormais possible de créer des estimations hypergranulaires.

Les bureaux nationaux de statistique (INS) pourraient être à l’avant-garde de ce changement. Les tâches classiques des bureaux de statistique, telles que la coordination des enquêtes auprès des ménages et des recensements, resteront au cœur de leur travail. Cependant, tout comme l’IA peut améliorer les capacités des médecins, elle a également le potentiel de rendre les bureaux de statistique meilleurs, plus rapides et finalement moins chers.

Pourtant, de nombreux pays luttent pour que cela se produise. Dans un monde COVID-19 marqué par des capacités financières et statistiques limitées, faire fonctionner l’innovation pour les bureaux de statistique est d’une importance primordiale pour créer une vie meilleure pour tous. PARIS21 et World Data Lab ont uni leurs forces pour soutenir l’innovation dans les offices statistiques et les adapter à cet objectif, y compris l’office national de statistique de Colombie. Si nous enrichissons les enquêtes et les recensements existants avec des données géospatiales, il sera possible de générer des estimations démographiques et de pauvreté très granulaires et plus à jour.

Dans le cas de la Colombie, cette nouvelle méthode a facilité une mise à l’échelle des estimations de pauvreté existantes qui contenaient 1 123 points de données à 78 000 points de données, ce qui représente une multiplication par 70. Cela se traduit par des estimations beaucoup plus granulaires mettant en évidence l’hétérogénéité de la Colombie entre et au sein des municipalités (voir Figure 1).

Graphique 1. Part de la pauvreté (%) Colombie, en 2018

Graphique 1. Part de la pauvreté (%) Colombie, en 2018

Les moyennes pour chaque municipalité contiennent encore de grandes variations car la pauvreté dépend de beaucoup plus de facteurs que la géographie.

Les méthodes traditionnelles ne permettent pas des estimations hypergranulaires rentables mais servent de point de référence, en raison de leur capacité de vérification au sol. Par conséquent, nous avons combiné les données existantes avec de nouvelles techniques d’IA, pour descendre à des estimations granulaires allant jusqu’à 4 × 4 kilomètres. En particulier, nous avons entraîné un algorithme pour connecter des images satellites diurnes et nocturnes. Dans une étape suivante, nous avons utilisé cet algorithme pour prédire les taux de pauvreté sur la base d’images satellitaires diurnes. Ces données de télédétection étant disponibles à un niveau très granulaire, cela nous a permis d’augmenter significativement la granularité des données sur la pauvreté. Enfin, nous avons combiné ces prévisions avec les informations du dernier recensement pour garantir leur fiabilité. Cette combinaison de techniques traditionnelles et nouvelles nous a permis de saisir la variation des taux de pauvreté entre et au sein des communautés à travers le pays. L’application de ces techniques aux parts de pauvreté met en lumière les différences de taux de pauvreté en Colombie, même au sein des municipalités. Prenez le département d’Antioquia avec sa capitale Medellín, la deuxième plus grande ville de Colombie. Dans la figure 2, la variance détectée, qui atteint 48 %, devient visible en comparant les données existantes avec les estimations hypergranulaires.

Cela révèle les capacités de combiner les méthodes conventionnelles d’analyse de la pauvreté avec de nouvelles techniques d’IA et le potentiel d’obtenir plus de granularité à l’avenir.

Figure 2. Part de la pauvreté (%) à Antioquia, en 2018

Figure 2. Part de la pauvreté (%) à Antioquia, en 2018

Nous avons également utilisé l’imagerie satellitaire pour prédire la densité de population au niveau de l’îlot urbain, en utilisant une technique d’apprentissage automatique appelée Random Forest. Cette approche s’appuie sur un grand nombre de classifications individuelles ou d’arbres de régression, chacun d’eux visant à fournir la meilleure prédiction possible. Faire la moyenne des prédictions de tous les arbres individuels conduit finalement à la prédiction finale de la forêt aléatoire. Cette technique nous a permis de distribuer les données d’entrée au niveau de la municipalité à une granularité d’une zone de 100×100 mètres. La décomposition de chaque commune en fractions encore plus petites révèle d’immenses écarts par rapport à la moyenne. Prenons comme exemple le quartier de Bogotá DC. Les données du recensement suggèrent une densité de population moyenne de 46 personnes vivant dans un rayon de 100 × 100 mètres. Cependant, nos méthodes révèlent une répartition plus hétérogène, notamment entre les régions rurales et urbaines, allant de une à 999 personnes pour 100×100 mètres. Cette instance montre comment nous pouvons améliorer considérablement la granularité des données existantes en intégrant des méthodes de pointe et de nouveaux types de données dans notre analyse.

Figure 3. Densité de population à Cundinamarca en 2018

Figure 3. Densité de population à Cundinamarca en 2018

Les exemples précédents montrent à quel point ce type d’engagement est précieux dans un pays comme la Colombie, où 42,5 % de la population vit dans la pauvreté monétaire, avec de grandes disparités entre et même au sein des municipalités (comme le montre la figure 2). La granularité obtenue grâce à l’utilisation de nouvelles méthodes d’apprentissage automatique, telles que développées dans cet exercice, permet aux entités publiques de formuler et de mettre en œuvre des politiques qui se concentrent sur les plus vulnérables et s’efforcent de ne laisser personne de côté, d’autant plus que ces politiques peuvent s’adresser à les zones les plus appropriées, avec le plus grand impact. Les résultats de cette collaboration se sont avérés essentiels pour que les processus de prise de décision associés aux programmes de relance surmontent les difficultés causées par la pandémie de COVID-19.

En conclusion, l’innovation dans les méthodes statistiques et la technologie de l’IA pourrait permettre aux INS de devenir le principal fournisseur de prise de décision basée sur les données. L’opportunité de créer des données hypergranulaires et de qualité dépend de l’investissement de ressources dans les techniques d’IA et les nouvelles approches scientifiques. La demande future et l’amélioration technique de données et de prévisions en temps réel peuvent résoudre l’erreur de perfectionnisme qui prévaut dans les ONS. Par conséquent, contribuer à l’innovation technique et s’associer avec des fournisseurs d’entreprises de pointe accélérera le processus de transformation. Si cette fenêtre d’opportunité est utilisée correctement, nous pouvons ouvrir la voie aux bureaux de statistique pour entrer dans le 21st siècle.

Vous pourriez également aimer...