Résumé :
· La granularité et la multidimensionalité du big data offre des avantages aux économistes pour identifier les tendances économiques lorsqu’elles surviennent (« nowcasting »), tester des théories de comportement des agents auparavant intestables et créer un ensemble d’outils pour manipuler et analyser ces données.
· Les économistes font face à trois défis : l’accès à ces données, la capacité de les répliquer, et le développement de compétences techniques pour les manipuler.
· L’intégration renforcée de formations en sciences informatiques et statistiques avancées apparait donc comme une priorité de politique publique, de même que le développement de laboratoires publics de recherche orientée « Big Data »
· De même, une collaboration plus étroite entre les entreprises possédant les données massives et les chercheurs amenés à travailler sur du Big Data serait hautement bénéfique pour l’avancée de la discipline économique.
« Big Data ». Derrière ce terme fortement médiatisé se trouve l’émergence de volumes de données sans précédent au cours de la dernière décennie, des processus numériques aux échanges sur les réseaux sociaux, à l’Internet des objets (systèmes, capteurs, appareils mobiles, etc.).
– Pour chiffrer ce phénomène, la capacité de stocker de l’information a crû de manière exponentielle au cours des dernières décennies (en effet, la capacité de stockage d’information par habitant a en moyenne doublé tous les 40 mois[1] depuis les années 1980), et en 2012, 2,5 exabits (2.5×10^18) de données sont générées quotidiennement[2].
– Ces nouveaux volumes de données sans précédents ouvrent déjà de nouvelles opportunités dans des domaines allant de la génétique (réduction drastique du temps de séquençage du génome humain) aux sciences sociales (avec notamment toutes les données provenant des réseaux sociaux) en passant par les logiciels analytiques d’entreprise et les algorithmes de prévision (via par exemple le moteur de recherche de Google, la fonction de saisie automatique d’Apple, les services de publicité en ligne, les scorings de risque des assureurs, les activités de souscription des sociétés de cartes de crédit, etc.).
– Un exemple concret pris par Linar Einav and Jonathan Levin[3] (Stanford University) montre l’ampleur de ce phénomène à l’ère d’Internet : dans le commerce de détail, avant l’émergence d’Internet, la collecte de données était souvent limitée aux ventes journalières – par produit dans le meilleur des cas ; actuellement, grâce aux données obtenues par lecture optiques, ainsi qu’au commerce en ligne, tout le parcours et le comportement de l’acheteur peut être retracé, de ses historiques d’achat à ses requêtes en passant par son exposition à la publicité.
– Des exemples similaires peuvent être fournis concernant les inventaires, les transactions en ligne, ou encore les données des services publics (impôts, programmes de prestations sociales, etc.), de même que les données d’emploi (les géants de l’emploi en ligne comme LinkedIn ou Monster.com agrègent des données sur les titres de poste, les compétences des candidats, leurs employeurs précédents, leur niveau professionnel, etc. ce qui a comme avantage de fournir un niveau de granularité inédit comparé aux données d’enquête classiques).
Mais au-delà des débats sur ce que cette « nouvelle classe d’actifs » (comme l’appelle le Forum Economique Mondial[4]) pourra apporter à l’économie, on peut se demander comment ces données peuvent améliorer la manière dont on analyse l’activité économique, et comment le développement de nouvelles méthodes d’analyse des données et de modélisation prédictive développées en statistiques et en informatique peuvent être utiles en analyse économique.
– Comme le montrent Taylor, Shroeder and Meyer[5], la place des sciences économiques à l’intersection de l’université et des sciences appliquées à l’entreprise, de même que son important corpus théorique et méthodologique en font un candidat idéal à l’utilisation de données plus importantes et plus riches tout en conservant la robustesse et la représentativité qui caractérisent cette discipline.
– Comme Schroeder[6] le décrit, le Big Data appliqué à l’économie correspond à un changement radical dans l’échelle et l’étendue des ressources (et des outils pour les manipuler) disponibles pour l’objet d’étude; cette définition diffère de celle, plus pratique, utilisée dans le monde de l’entreprise où les notions de « volume, variété et rapidité » des données aident à constituer un avantage sur la concurrence.
L’application du Big Data à l’analyse économique
L’application du Big Data à l’analyse économique pourrait donc être associée aux notions :
1) de « multidimensionalité » : en termes de nombre de variables par observation, de nombre d’observations ou les deux
2) de « granularité » : les séries de données massives permettent souvent de fournir des données au niveau microéconomique utiles afin d’analyser le comportement des agents.
8 avantages pour la recherche et la politique économique :
3) Améliorer le suivi et la prévision de l’activité économique au niveau gouvernemental. Les administrations publiques centrales et locales collectent de vastes quantités de données administratives au niveau microéconomique, dans des domaines tels que la collecte des impôts, les programmes sociaux, l’éducation ou la démographie, entre autres.
4) Etendre le champ desanalyses en panel. L’influence grandissante de ces données peut être illustrée par l’écho grandissant des articles les utilisant, notamment celui de Piketty et Saez[7] dont l’analyse des données de l’Internal Revenue Service (IRS) afin de mettre en relief les inégalités économiques a entrainé de nombreux débats sur le sujet.
5) Un niveau de périodicité et de granularité souvent plus élevé que les données d’enquête traditionnelles. L’utilisation de nouvelles données pour assurer le suivi de l’activité économique du secteur privé, parfois même en temps réel (comme par exemple le Billion Prices Project[8] du MIT qui collecte des prix de plusieurs centaines de sites de vente en ligne afin d’obtenir un proxy précis de l’inflation, ou l’outil SpendingPulse[9] de Master Card qui trace la consommation des ménages via les paiements par carte de crédit), constituent des outils puissants de suivi de l’activité économique avec un niveau de périodicité et de granularité souvent plus élevé que les données d’enquête traditionnelles.
6) Des proxys d’indicateurs économiques. Des mesures indirectes comme les recherches en ligne ou les publications sur les réseaux sociaux peuvent être également utilisées comme des proxys d’indicateurs économiques comme l’emploi ou la confiance des ménages (voir par exemple le papier de Choi et Varian[10] sur l’utilisation des « tendances » sur Google afin de « prédire le présent », en suggérant que les requêtes sur Google pour un produit spécifique reflète précisément la demande pour ce produit). La disponibilité des données « en temps réel » peut ainsi offrir un avantage en termes de « nowcasting » ou identifier les tendances économiques alors qu’elles se déroulent.
7) Une taille importante de données qui contribuerait à une amélioration significative des mesures. La disponibilité progressive de données administratives et privées à grande échelle pourrait permettre d’obtenir de meilleurs moyens de mesurer les effets économiques grâce à des données plus étendues et granulaires, et plus particulièrement pour ce qui est des comportements des agents individuels (ce que Brynjolffson[11] du MIT appelle les « nano-données ») ; la taille importante des nouvelles bases de données pourrait également résoudre le problème statistique du nombre limité d’observations et rendre l’analyse plus robuste et précise.
8) Une meilleure perception des effets des différentes politiques et chocs économiques. Ces nouvelles données pourraient encourager les économistes à poser de nouvelles questions et thématiques de recherche, dans des domaines aussi variés que les dynamiques sur le marché de l’emploi (Choi et Varian[12]), les effets de l’éducation préscolaire sur les revenus futurs (Chetty et al., voir ci-dessous), les dynamiques sur les marchés des actions (Moat et al.[13]) et le fonctionnement des marchés en ligne (Einav et al.[14]). La possibilité de combiner différentes bases de données élargit l’éventail de recherche, comme le montre par exemple l’étude de Chetty, Friedman et Rockoff[15] qui combine des données administratives sur 2,5 millions d’écoliers new-yorkais avec leurs revenus en tant qu’adultes 20 ans plus tard afin de montrer la « valeur ajoutée » d’avoir bénéficié d’un « bon » enseignant ; dans ce cas, le haut niveau de granularité dans les données rend possible de lier les scores individuels aux tests scolaires et les dossiers d’impôts correspondants pour un large échantillon, ce qui aurait été impossible avec des données agrégées ou un plus faible échantillon. De nombreux aspects des comportements individuels, comme par exemple les rapports sociaux (avec les données issues des réseaux sociaux) ou la géolocalisation pourraient également devenir plus simples à observer et analyser ; l’exemple de Scott Keeter[16], du Pew Research Center, qui avance l’idée d’utiliser les données collectées sur les réseaux sociaux comme supplément voire substitut des données d’enquête publiques, prouve bien cette idée.
9) Rendre possible les « expérimentations naturelles ». Par exemple, le fait de passer de données hebdomadaires à des données à nettement plus haute fréquence (jusque minute par minute), ou à des données sur les consommateurs ou les produits individuels, peut permettre de détecter des détails ou variations au niveau micro, qui seraient plus difficiles à isoler et exploiter avec des données plus agrégées. L’étude d’Einav, Farronato et Levin[17], qui propose une analyse des stratégies de prix et de ventes sur Internet, est un exemple concret de l’avantage de bénéficier de données granulaires afin d’obtenir une information riche sur les individus étudiés et d’explorer une variété de conséquences pour une expérience donnée (par exemple, une substitution vers d’autres produits dans le cas d’un changement de prix). Ces avantages prennent un intérêt particulier lorsqu’on les applique aux cas des entreprises, et plus particulièrement aux plateformes en ligne pour qui il devient de plus en plus simple et peu coûteux d’expérimenter lorsqu’elles disposent de stratégies de prix granulaires et personnalisées et de méthodes automatisées toujours plus aisées afin de capturer (et d’appliquer) les résultats de ces expérimentations.
10) De nouvelles opportunités pourraient également venir de nouvelles techniques statistiques et de machine learning[18], qui peuvent aider à construire des modèles prédictifs plus robustes, notamment dans le champ de la microéconomie empirique. L’étude d’Einav, Jenkins et Levin[19] est un exemple de l’utilisation des techniques de Big Data dans la modélisation prédictive dans le but d’incorporer de l’hétérogénéité au sein de leur modèle économétrique ; dans cette étude, l’utilisation de techniques de modélisation prédictive permet la construction de « scores de risque de crédit » qui aident les chercheurs à modéliser les comportements d’emprunt des consommateurs et comment les prêteurs doivent tarifier les prêts et établir des limites d’emprunt pour les différents types d’emprunteurs répartis selon leur risque de défaut. Saisir l’hétérogénéité via les techniques de Big Data et de nouvelles méthodologies statistiques pourrait également devenir avantageux pour de nombreux autres secteurs, du fait de la possibilité d’aller au-delà de la mesure des « effets moyens » et de pouvoir relier l’hétérogénéité mesurable à des effets de traitements et des politiques optimales spécifiques ; l’exemple de la chaine de produits alimentaires Safeway[20], qui propose des réductions spécifiques à chaque client en fonction des élasticités-prix individuelles, montre la capacité progressive des entreprises à aller au-delà des simples élasticités dans leur politique de prix et de développer des algorithmes afin d’estimer l’élasticité et les prix optimaux spécifiques à chaque type de consommateur ; de même pour les gouvernements dans la mise au point de leur politique économique, avec la possibilité de mettre au point des politiques plus ajustées selon les utilisateurs (par exemple, des politiques de santé ajustées selon l’environnement médical et les caractéristiques du patient, des politiques d’éducation ajustées selon le niveau, l’enseignant ou le mélange d’élèves, etc.).
Des défis et des avertissements
Cependant, même si ces nouvelles bases de données et techniques statistiques ouvrent de nombreuses opportunités, elles représentent également de nombreux défis pour les économistes.
1) l’accès aux données : une part importante de ces nouvelles données sur lesquelles les chercheurs travaillent appartient à des entreprises (qui les agrègent à partir de leur clientèle), et les bénéfices pour ces entreprises de bénéficier des connaissances des chercheurs sur ces données ne sont pas toujours comparables aux coûts de divulguer les données.
2) La nature non structurée des données, qui représente un challenge en termes économétriques – rien que pour séparer les dépendances entre les séries étudiées ; il s’agit là du défi technique le plus important avec ce type de données, ce qui nécessite le développement de nouveaux outils de régression.
3) La nécessité pour les économistes amenés à utiliser ces données de développer de nouvelles compétences – et plus spécifiquement au niveau des logiciels et langages avancés (SQL, R) ainsi que des algorithmes de machine learning – afin d’être aptes à combiner le cadre conceptuel de la recherche économique avec la capacité d’appliquer des idées sur des bases de données massives ; la profession fortement médiatisée de « data scientist » qui consiste à analyser des données afin de trouver des modèles empiriques, se situe exactement au croisement des sciences de l’informatique et de l’analyse économétrique. L’extraction et la synthèse des différentes variables ainsi que la recherche de relations entre elles, seront donc amenées à devenir des parties importantes du travail des économistes et à nécessiter de nouvelles compétences en sciences informatiques et en bases de données.
4) Comme cet article l’a décrit, nous pouvons penser que l’émergence du Big Data pourra changer assez fortement le paysage de la recherche et de la politique économiques. Cependant, cette évolution ne saurait se substituer à la théorie économique ; comme le montre Sascha Becker[21], la pratique usuelle de la prévision économique (théorie – simulation – calibration – prévision) ne pourra être changée du fait que l’on a « besoin de la théorie pour comprendre les mécanismes ou au moins pour suggérer ce que l’on espérerait trouver en premier lieu ». En effet, même si les données de masse sont très utiles pour détecter des corrélations, y compris des corrélations subtiles qu’une analyse de bases de données moins importantes pourrait manquer, cela ne nous dit pas lesquelles sont pertinentes ; de même, la magnitude des données peut déboucher sur des corrélations « trompeuses » entre des séries qui n’ont rien en commun. Pour résumer, la Big Data ne peut se substituer à la phase de recherche théorique ; en effet, aucun problème économique ne se résout via un simple « data crunching », et il y a toujours besoin de comprendre en amont le problème sur lequel on travaille.
5) La capacité des Big Data et des techniques statistiques associées de réduire d’importants ensembles de données en une statistique unitaire n’est que l’apparence de l’exactitude et ne remplace donc pas une analyse scientifique approfondie.
La confiance trop grande accordée aux données massives peut même conduire à des effets pervers, du fait que ces bases agrègent souvent des données regroupées de manières différentes et pour des buts différents ; ce risque est particulièrement prégnant pour ce qui est des données collectées à partir des recherches sur Internet, en témoigne l’exemple de Google Flu Trends, dont la responsabilité de la collecte de données dans l’échec relatif a été pointée par le statisticien de Harvard Kaiser Fung[22]; la confiance trop grande aux données web a même donné lieu à ce que Marcus et Davis[23] appellent un « effet chambre d’écho », avec l’exemple des résultats de Google Traduction qui se basent sur les traductions des pages Wikipédia … et vice-versa. Un autre danger vient de la difficulté grandissante à reproduire les données et les programmes des papiers de recherche lorsque les données deviennent de plus en plus massives, comme le montre Barry Eichengreen[24] dans Project Syndicate, qui appelle à se concentrer plus sur l’analyse historique des phénomènes économiques que sur le développement de méthodes statistiques de plus en plus poussées.
Recommandations
Comme l’a décrit cet article, les avantages de l’utilisation des Big Data pour l’analyse économique sont légion. En termes de recommandations de politiques publiques et d’éducation, le « filon » du Big Data s’inscrit totalement dans le développement exponentiel des NTIC dans la vie quotidienne et représente un argument de plus pour le développement de l’enseignement des sciences informatiques, notamment dans les formations universitaires en économie et sociologie ; l’intégration récente d’un module « Big Data » à l’examen du CFA® n’est que l’illustration de ce phénomène[25]. Le développement de laboratoires publics concentrés sur le Big Data pourrait également représenter une solution au manque de représentativité dont cette discipline souffre auprès des chercheurs.
De même, une collaboration plus étroite entre les chercheurs et les entreprises possédant les données de masse serait bénéfique à l’ensemble des acteurs et permettrait, d’un côté aux entreprises de bénéficier de points de vue extérieurs et d’une aide à la décision essentielles, et de l’autre aux économistes de bénéficier d’un « matériau » utilisable pour le développement de nouveaux modèles et pour tester de nouvelles théories.
[6]http://www.oxfordscholarship.com/view/10.1093/acprof:oso/9780199661992.001.0001/acprof-9780199661992-chapter-11
[11]http://digital.mit.edu/bigdata/agenda/slides/Brynjolfsson%20Big%20Data%20MIT%20CDB%202012-12-12.pdf
[18]Les lecteurs intéressés par ces nouvelles techniques pourront consulter le papier de Hal Varian, “Big Data: New Tricks for Econometrics”(http://pubs.aeaweb.org/doi/pdfplus/10.1257/jep.28.2.3) , dans lequel il décrit en profondeur les nouveaux outils d’analyse et de manipulation des données massives, comme par exemple les nouvelles méthodes de sélection des variables (du fait qu’il y a plus de prédicteurs potentiels), de même que les nouvelles manières de modéliser les relations complexes (via des techniques de machine learning comme les arbres de décision, les machines à vecteurs de support, les réseaux neuronaux, l’apprentissage profond, etc.).