Text as Data

Teaching
Author

Thomas Delcey

Published

2026-03-09

Description

Une intervention de 3 heures pour des étudiants de master sur l’analyse textuelle, structurée autour d’un pipeline complet : création du corpus, représentation et mesure. Le cours couvre la constitution des données (OCR, web scraping, API), le pré-traitement (tokenisation, nettoyage, stemming/lemmatisation), puis les principales méthodes d’analyse : statistiques descriptives (fréquences, TF-IDF), approches supervisées (régression, classification), modèles non supervisés (LDA/STM) et leurs usages pour l’inférence. La séance se conclut par les limites du bag-of-words et une ouverture vers des représentations plus riches fondées sur le contexte (word embeddings, LLM).


Slides