Text as Data
Teaching
Description
Une intervention de 3 heures pour des étudiants de master sur l’analyse textuelle, structurée autour d’un pipeline complet : création du corpus, représentation et mesure. Le cours couvre la constitution des données (OCR, web scraping, API), le pré-traitement (tokenisation, nettoyage, stemming/lemmatisation), puis les principales méthodes d’analyse : statistiques descriptives (fréquences, TF-IDF), approches supervisées (régression, classification), modèles non supervisés (LDA/STM) et leurs usages pour l’inférence. La séance se conclut par les limites du bag-of-words et une ouverture vers des représentations plus riches fondées sur le contexte (word embeddings, LLM).
