Au vu du nombre sans cesse croissant de documents électroniques disponibles sur Internet et
dans les bases de données, retrouver des informations correspondant à un besoin est bien souvent
considéré comme un processus cognitif très complexe, qui fait appel à de nombreux savoirs et
se compose de diverses tâches, allant de la prise en compte d'un manque d'information jusqu'au
traitement des données identifiées. La recherche d'information (RI), branche de l'informatique
s'intéressant à l'acquisition, l'organisation, le stockage, la recherche et la sélection d'informations,
a pour objectif principal de concevoir des systèmes permettant d'aider des utilisateurs à trouver
les informations qui les intéressent malgré la masse de données disponibles.
Mes activités de recherche, qui ont véritablement débutées avec ma thèse en octobre 2005,
se concentrent principalement autour du problème de présentation des résultats d'une recherche
d'information à un utilisateur. L'objectif est de permettre à l'utilisateur du système de cerner
rapidement les différents aspects du besoin d'information qu'il a exprimé.
Typiquement, un système de recherche d'information retourne, en réponse à une requête,
une liste de documents ordonnée selon des estimations de leur potentiel de pertinence. Dans le but de réduire l'effort à fournir pour localiser les information pertinentes, de nombreuses
approches ont proposé des présentations alternatives des résultats. Nombre de ces approches
s'appuient sur une catégorisation des documents retournés par un système de recherche initial
pour regrouper les documents aux thématiques similaires et ainsi présenter des catégories de
résultats permettant une meilleure localisation des documents pertinents. Bien que de telles
approches aient, à de maintes reprises, montré leur capacité à améliorer l'accès à l'information,
les systèmes de recherche réalisant une catégorisation de leurs résultats souffrent, selon nous, de
deux principales limitations :
– Le degré de diversité thématique intra-document influe sur la capacité à produire des
groupes représentatifs de thématiques spécifiques : chaque document est susceptible d'aborder
un certain nombre de thématiques distinctes et la prise en compte de relations entre documents
aux thématiques diverses risque de conduire à l'obtention de clusters mal centrés
autour des principaux sujets abordés.
– Le degré de diversité thématique inter-documents influe sur la capacité à produire des
groupes représentatifs des différents aspects de la requête : le niveau d'hétérogénéité des
textes considérés implique bien souvent un faible degré de finesse du clustering réalisé et
certaines thématiques émergentes peuvent se trouver en forte déconnexion avec le besoin
exprimé par l'utilisateur.
Au cours de ma thèse, nous avons exploré ces deux différents points afin de mettre en place
un système visant à présenter à l'utilisateur une liste de représentants de clusters constituant
un bon aperçu des différents types d'information qu'il pourra trouver en rapport avec sa requête
dans le corpus de textes interrogé. Dans un premier temps, nous avons cherché à individualiser
les différentes thématiques des documents pour produire des groupes mieux centrés autour
de sujets spécifiques. Dans un second temps, nous avons cherché à organiser les groupes autour
de la requête de l'utilisateur, afin de proposer une catégorisation des résultats permettant
d'appréhender facilement la structure de l'information pertinente.
L'objectif final est d'extraire les parties les plus intéressantes d'un ensemble de documents
(les documents retournés par un système de recherche classique) afin de présenter à l'utilisateur
une liste de passages de texte lui permettant de sélectionner les aspects, et donc les groupes de
passages, qui lui semblent correspondre au mieux à ses besoins. Ma thèse s'est donc concentrée sur le partitionnement des informations qui ont trait à la requête formulée par l'utilisateur pour
en faire émerger la structure dans un document composite final qui peut être considéré comme
une “feuille de route”.
La problématique rejoint alors celle du résumé multi-documents, dont l'objet est de
synthétiser les informations principales qu'un utilisateur pourra trouver dans un corpus en rapport
avec sa requête. Cependant, le but de notre approche est moins de fournir à l'utilisateur un
document contenant l'ensemble des informations répondant à ses besoins, ce qui semble difficile
au regard de l'aspect subjectif de la recherche d'information, que de l'aider à orienter sa recherche
en lui fournissant un aperçu des différentes thématiques se rapportant à son sujet. L'objectif
est de fournir à l'utilisateur une sorte de sommaire dont les points d'entrée le conduiront vers
l'information qui l'intéresse.
| Principales contributions |
Outre la production du document composite final qui était l'objectif central de ma thèse,
les contributions réalisées sont multiples. Elles concernent le découpage des documents et son
évaluation, les mesures de pertinence et de similarité des textes, l'impact que peut avoir l'individualisation
des thématiques des documents en recherche d'information (et notamment sur
les catégories de résultats présentées à l'utilisateur), le mode d'évaluation des systèmes utilisant
un clustering des résultats et enfin, la prise en considération du contexte dans les processus de
clustering.
|
Synthèse des travaux
|
| |
|
- Segmentation thématique
|
|
– Vision globale du texte
|
|
– Mesures d'évaluation
|
| |
|
- Estimations de pertinence
|
|
– Mesures de similarité et longueur des textes
|
| |
|
- Approches de type Passage Retrieval
|
|
– Segments thématiques vs. Séquences de termes de taille fixe
|
| |
|
- Catégorisation en recherche d'information
|
|
– Extension de la Cluster Hypothesis au niveau des segments thématiques
|
|
– Remise en cause des effets bénéfiques de la Cluster Hypothesis
|
| |
|
- Composition de documents
|
|
– Optimisation multi-objectif
|
|
|
| Participation à des projets |
Les activités de recherche, que j'ai menées depuis mon stage de maîtrise au LERIA, m'ont amené
à réfléchir sur de nombreux problèmes dans le cadre
de différents projets :
- Projet de l'ACI Ecole et sciences cognitives du ministère de la recherche : ``Conceptualisation et propriétés sémantiques des situations dans la résolution de problèmes arithmétiques'' (2002-2005)
- Projet interministériel EVALDA-MEDIA : ``Méthodologie d'Evaluation automatique de la compréhension hors et en contexte du DIAlogue'' (2002-2006)
– Projet régional CPER (Angers - Nantes) MILES : “Multimédia - Ingénierie du Logiciel - aidE à la décision - Télecommunication, Détection et LocaliSation” (2007-2009)
– Projet du GDR Recherche Opérationnelle IROCOI : “Interactions entre outils de RO et PPC pour la résolution de problèmes d'Optimisation multiobjectIf” (2006)
La participation à ces projets, qui ne sont pas centrés spécifiquement sur le domaine
de la recherche d'information, m'ont permis d'échanger avec des personnes d'horizons
divers et ainsi d'acquérir des connaissances qui m'ont été utiles tout au long de ma thèse,
notamment pour la résolution de ce problème d'optimisation multi-objectifs que peut
constituer la recherche des fragments de textes les plus représentatifs des différents aspects
d'une requête.
| Perspectives de recherche |
Les travaux que j'ai effectués au cours de mes trois années de thèse ouvrent de nombreuses perspectives. En effet, le développement de notre système de composition de
documents est loin d'être achevé puisque, dans l'état actuel, il ne prend en compte que
les deux critères de diversité des segments sélectionnés et leur proximité avec la requête.
Il faut bien entendu que le document créé soit le plus “proche” sémantiquement de la
requête utilisateur mais l'on peut aussi imaginer d'autres critères tels que la cohérence du
texte final, la longueur du document produit ou la mise en place d'une structure “logique”
dans le texte. Les critères utilisés actuellement sont relativement généraux et l'on peut
envisager la prise en compte de critères plus spécifiques permettant de faire tendre le
document à produire vers une structure de texte ou vers des documents exemples donnés,
notamment par l'emploi d'un vocabulaire contrôlé. La mise en place d'une interaction avec
l'utilisateur est aussi à l'ordre du jour : la création du document final peut être orientée
par des validations ou des rejets de documents intermédiaires. Enfin, bien qu'une grande
attention ait été portée sur l'évaluation du document produit, les comportements d'un
utilisateur face à un système tel que le notre restent à apprécier.
Etant donnés le nombre de domaines que touche la conception du document composite
que nous avons proposé, et le point de vue original que nous avons adopté (souligné
notamment par une prise de distance par rapport à la Cluster Hypothesis communément
considérée comme un phénomène bénéfique), de très nombreuses pistes de travail sont
envisageables.