Text as Data
Description
Une intervention pour des étudiants de master sur l’analyse textuelle, structurée autour d’un pipeline complet : création du corpus, représentation et mesure. Le cours couvre la constitution des données (OCR avec Mistral, web scraping, API), la représentation vectorielle et pré-traitement (tokenisation, nettoyage, etc.), puis les principales méthodes d’analyse : mesures directes ou issue d’un modèle d’apprentissage et leur usage pour l’inférence. On illustre ces étapes par la présentation d’un probabilistic topic model (STM). La séance se conclut par les limites du bag-of-words et une ouverture vers des représentations contextuelles (co-occurrence, word embeddings, LLM).
