Activités de Recherche


Contexte de recherche


Au vu du nombre sans cesse croissant de documents électroniques disponibles sur Internet et dans les bases de données, retrouver des informations correspondant à un besoin est bien souvent considéré comme un processus cognitif très complexe, qui fait appel à de nombreux savoirs et se compose de diverses tâches, allant de la prise en compte d'un manque d'information jusqu'au traitement des données identifiées. La recherche d'information (RI), branche de l'informatique s'intéressant à l'acquisition, l'organisation, le stockage, la recherche et la sélection d'informations, a pour objectif principal de concevoir des systèmes permettant d'aider des utilisateurs à trouver les informations qui les intéressent malgré la masse de données disponibles.

Mes activités de recherche, qui ont véritablement débutées avec ma thèse en octobre 2005, se concentrent principalement autour du problème de présentation des résultats d'une recherche d'information à un utilisateur. L'objectif est de permettre à l'utilisateur du système de cerner rapidement les différents aspects du besoin d'information qu'il a exprimé. Typiquement, un système de recherche d'information retourne, en réponse à une requête, une liste de documents ordonnée selon des estimations de leur potentiel de pertinence. Dans le but de réduire l'effort à fournir pour localiser les information pertinentes, de nombreuses approches ont proposé des présentations alternatives des résultats. Nombre de ces approches s'appuient sur une catégorisation des documents retournés par un système de recherche initial pour regrouper les documents aux thématiques similaires et ainsi présenter des catégories de résultats permettant une meilleure localisation des documents pertinents. Bien que de telles approches aient, à de maintes reprises, montré leur capacité à améliorer l'accès à l'information, les systèmes de recherche réalisant une catégorisation de leurs résultats souffrent, selon nous, de deux principales limitations :

– Le degré de diversité thématique intra-document influe sur la capacité à produire des groupes représentatifs de thématiques spécifiques : chaque document est susceptible d'aborder un certain nombre de thématiques distinctes et la prise en compte de relations entre documents aux thématiques diverses risque de conduire à l'obtention de clusters mal centrés autour des principaux sujets abordés.

– Le degré de diversité thématique inter-documents influe sur la capacité à produire des groupes représentatifs des différents aspects de la requête : le niveau d'hétérogénéité des textes considérés implique bien souvent un faible degré de finesse du clustering réalisé et certaines thématiques émergentes peuvent se trouver en forte déconnexion avec le besoin exprimé par l'utilisateur.

Au cours de ma thèse, nous avons exploré ces deux différents points afin de mettre en place un système visant à présenter à l'utilisateur une liste de représentants de clusters constituant un bon aperçu des différents types d'information qu'il pourra trouver en rapport avec sa requête dans le corpus de textes interrogé. Dans un premier temps, nous avons cherché à individualiser les différentes thématiques des documents pour produire des groupes mieux centrés autour de sujets spécifiques. Dans un second temps, nous avons cherché à organiser les groupes autour de la requête de l'utilisateur, afin de proposer une catégorisation des résultats permettant d'appréhender facilement la structure de l'information pertinente.







L'objectif final est d'extraire les parties les plus intéressantes d'un ensemble de documents (les documents retournés par un système de recherche classique) afin de présenter à l'utilisateur une liste de passages de texte lui permettant de sélectionner les aspects, et donc les groupes de passages, qui lui semblent correspondre au mieux à ses besoins. Ma thèse s'est donc concentrée sur le partitionnement des informations qui ont trait à la requête formulée par l'utilisateur pour en faire émerger la structure dans un document composite final qui peut être considéré comme une “feuille de route”.

La problématique rejoint alors celle du résumé multi-documents, dont l'objet est de synthétiser les informations principales qu'un utilisateur pourra trouver dans un corpus en rapport avec sa requête. Cependant, le but de notre approche est moins de fournir à l'utilisateur un document contenant l'ensemble des informations répondant à ses besoins, ce qui semble difficile au regard de l'aspect subjectif de la recherche d'information, que de l'aider à orienter sa recherche en lui fournissant un aperçu des différentes thématiques se rapportant à son sujet. L'objectif est de fournir à l'utilisateur une sorte de sommaire dont les points d'entrée le conduiront vers l'information qui l'intéresse.

Principales contributions


Outre la production du document composite final qui était l'objectif central de ma thèse, les contributions réalisées sont multiples. Elles concernent le découpage des documents et son évaluation, les mesures de pertinence et de similarité des textes, l'impact que peut avoir l'individualisation des thématiques des documents en recherche d'information (et notamment sur les catégories de résultats présentées à l'utilisateur), le mode d'évaluation des systèmes utilisant un clustering des résultats et enfin, la prise en considération du contexte dans les processus de clustering.



Synthèse des travaux
 
   - Segmentation thématique
         – Vision globale du texte
         – Mesures d'évaluation
 
   - Estimations de pertinence
         – Mesures de similarité et longueur des textes
 
   - Approches de type Passage Retrieval
         – Segments thématiques vs. Séquences de termes de taille fixe
 
   - Catégorisation en recherche d'information
         – Extension de la Cluster Hypothesis au niveau des segments thématiques
         – Remise en cause des effets bénéfiques de la Cluster Hypothesis
 
   - Composition de documents
         – Optimisation multi-objectif




Participation à des projets


Les activités de recherche, que j'ai menées depuis mon stage de maîtrise au LERIA, m'ont amené à réfléchir sur de nombreux problèmes dans le cadre de différents projets :

- Projet de l'ACI Ecole et sciences cognitives du ministère de la recherche : ``Conceptualisation et propriétés sémantiques des situations dans la résolution de problèmes arithmétiques'' (2002-2005)

- Projet interministériel EVALDA-MEDIA : ``Méthodologie d'Evaluation automatique de la compréhension hors et en contexte du DIAlogue'' (2002-2006)

– Projet régional CPER (Angers - Nantes) MILES : “Multimédia - Ingénierie du Logiciel - aidE à la décision - Télecommunication, Détection et LocaliSation” (2007-2009)

– Projet du GDR Recherche Opérationnelle IROCOI : “Interactions entre outils de RO et PPC pour la résolution de problèmes d'Optimisation multiobjectIf” (2006)

La participation à ces projets, qui ne sont pas centrés spécifiquement sur le domaine de la recherche d'information, m'ont permis d'échanger avec des personnes d'horizons divers et ainsi d'acquérir des connaissances qui m'ont été utiles tout au long de ma thèse, notamment pour la résolution de ce problème d'optimisation multi-objectifs que peut constituer la recherche des fragments de textes les plus représentatifs des différents aspects d'une requête.

Perspectives de recherche


Les travaux que j'ai effectués au cours de mes trois années de thèse ouvrent de nombreuses perspectives. En effet, le développement de notre système de composition de documents est loin d'être achevé puisque, dans l'état actuel, il ne prend en compte que les deux critères de diversité des segments sélectionnés et leur proximité avec la requête. Il faut bien entendu que le document créé soit le plus “proche” sémantiquement de la requête utilisateur mais l'on peut aussi imaginer d'autres critères tels que la cohérence du texte final, la longueur du document produit ou la mise en place d'une structure “logique” dans le texte. Les critères utilisés actuellement sont relativement généraux et l'on peut envisager la prise en compte de critères plus spécifiques permettant de faire tendre le document à produire vers une structure de texte ou vers des documents exemples donnés, notamment par l'emploi d'un vocabulaire contrôlé. La mise en place d'une interaction avec l'utilisateur est aussi à l'ordre du jour : la création du document final peut être orientée par des validations ou des rejets de documents intermédiaires. Enfin, bien qu'une grande attention ait été portée sur l'évaluation du document produit, les comportements d'un utilisateur face à un système tel que le notre restent à apprécier.

Etant donnés le nombre de domaines que touche la conception du document composite que nous avons proposé, et le point de vue original que nous avons adopté (souligné notamment par une prise de distance par rapport à la Cluster Hypothesis communément considérée comme un phénomène bénéfique), de très nombreuses pistes de travail sont envisageables.