Analyse des Données Textuelles


Ce module présente les principales méthodes d’analyse des données textuelles, utilisant le traitement automatique des langues (TAL), dans la perspective de la science des données (data science). Les méthodes sont présentées en relation à des applications concrètes, pour extraire des connaissances sur plusieurs plans, à partir de grandes quantités de textes non-structurés. Ces connaissances et applications sont complémentaires à celles intervenant dans le domaine de la recherche d’information (RI), avec toutefois plusieurs points communs (p.ex. la représentation des documents) ; des notions avancées de RI seront également présentées.

Ce module est divisé en trois parties, chacune commençant par la présentation d’un ou plusieurs problèmes d’analyse des données textuelles. Puis, les principales méthodes requises pour résoudre ces problèmes sont définies, en mettant l’accent sur leur généralité et leur réutilisabilité. Enfin, pour chaque partie, les méthodes sont mise en œuvre et combinées en vue d’applications concrètes.