Text as data: a first example
Un cadre général
Dans ce guide, nous allons explorer la construction et l’analyse de données textuelles. La méthode générale peut se décrire de la manière suivante (Gentzkow, Kelly, and Taddy 2019). A partir d’un corpus C nous cherchons à répondre à une question de recherche Y. Un tel processus implique quatre étapes:
-
Construire le corpus: le corpus C est un tableur composé d’un ensemble de documents d. Le document est ici une unité très générale: cela peut-être un livre ou un article ou un sous-ensemble de ces derniers comme, par exemple, un paragraphe ou une phrase.
-
Représentation: cette étape transforme les données textuelles en données numériques. Formellement, nous transformons C en un tableur
\(W\)
, qui associe une valeur textuelle à une valeur numérique. -
Mesurer: le but est alors d’appliquer une mesure f à W pour estimer la variable d’intérêt Y.
-
Interpréter: les résultats de l’estimation
\(/hat{Y}\)
sont discutés par rapport à la question de recherche\(Y\)
initiale.
Dans ce guide nous allons nous intéresser successivement aux trois premières étapes (la dernière étape étant inhérente à la question de recherche du chercheur).
Construire un corpus
library(dplyr)
library(knitr)
library(kableExtra)
corpus <- tibble(doc_id = c(1, 2, 3, "..."), source = c("This is the first document, American Economic Review",
"This document is the second document (published by the AER)",
"This document is the third document, Quaterly Journal of Economics",
"..."), year = c(1950, 1955, 1950, "..."))
corpus %>%
kbl() %>%
kable_minimal() %>%
kable_styling(full_width = F, latex_options = c("scale_down",
"HOLD_position"))
doc_id | source | year |
---|---|---|
1 | This is the first document, American Economic Review | 1950 |
2 | This document is the second document (published by the AER) | 1955 |
3 | This document is the third document, Quaterly Journal of Economics | 1950 |
… | … | … |
Gentzkow, Matthew, Bryan Kelly, and Matt Taddy. 2019. “Text as Data.” Journal of Economic Literature 57 (3): 535–74.