mardi 18 novembre 2008

Moteurs de recherche sémantiques

Usuellement, la qualité d’un moteur de recherche peut s'apprécier à l'aide de deux dimensions :
  1. La précision (opposé au bruit)
  2. Le rappel (opposé au silence)
La première grandeur, la précision, mesure le rapport entre le nombre de documents pertinents présents dans les résultats du moteur et l’ensemble des résultats renvoyés. Une partie des résultats ne seront d’aucune utilité, c’est ce que l’on nomme le bruit.

La deuxième grandeur, le rappel, mesure le rapport entre le nombre de documents pertinents présents dans les résultats du moteur et l’ensemble des documents pertinents présents sur le Web. Une partie des documents pertinents ne seront pas présents dans les résultats, c’est ce que l’on nomme le silence.
L’enjeu des moteurs de recherche sémantiques est d’améliorer la précision et le rappel en employant des techniques basées sur l’analyse linguistique des pages indexées et/ou les requêtes des utilisateurs. Dans le premier cas il s’agit pour le moteur de comprendre le sens des pages qu’il indexe, dans le deuxième de comprendre celui des requêtes des utilisateurs. Ce dernier procédé permet alors des requêtes « en langage naturel », en l’occurrence on pourra poser des questions au moteur et celui-ci sera capable d’en cerner la signification. Couplé à une compréhension des pages indexées, la pertinence des résultats renvoyés s’en trouvera grandement améliorée. Par exemple un moteur de recherche sémantique auquel on posera la question « qu’est ce que l’ONU ?» renverra les pages contenant « Organisation des Nations Unies » même si le mot « ONU » n’apparaît pas dans les pages indexées. Cette approche s’oppose à celle employée par les moteurs de recherche traditionnels (tel que Google ou Yahoo par exemple), qui eux renvoient l’ensemble des pages indexées contenant les mots clefs présents dans la requête de l’utilisateur. Si en théorie les moteurs sémantiques devraient s’avérer plus efficaces que les moteurs traditionnels, en pratique, les choses sont plus mitigées. En effet, l’implémentation d’outils linguistiques dans les moteurs sémantiques fait face à plusieurs écueils :


  1. La sophistication des traitements linguistiques mis en œuvre : le langage est une science complexe. Comme tous les outils automatisés de traitement informatique de la langue (ex: correcteurs orthographiques & grammaticaux, outils de traduction, ...), les moteurs sémantiques peuvent s’avérer perfectibles dans l’interprétation du sens des mots et des phrases, notamment en fonction du contexte dans lesquels on les emploie.
  2. Chaque langue a ses règles et ses spécificités. Ainsi, si un moteur traditionnel peut employer la même méthodologie pour indexer les pages de différentes langues, les moteurs sémantiques nécessitent eux de redévelopper, pour chaque, un mode de fonctionnement particulier.
  3. Le fonctionnement complexe des moteurs sémantiques nécessite, par rapport à leur homologues traditionnels, une puissance de calcul supérieure ainsi qu'un effort de développement logiciel plus conséquent. Les côuts de production et d'exploitation sont donc plus élevés.

Ainsi les moteurs sémantiques sont encore rarement connus du grand public car les résultats sont généralement peu probants. Par contre, en application professionnelle, les expériences sont plus concluantes, notamment grâce au fait qu’en entreprise, le langage employé est « limité » et spécifique au domaine d’activité, ce qui rend les traitements linguistiques plus facile à implémenter.

Les moteurs sémantiques devraient représenter l’avenir. Leur démocratisation ira de paire avec l’amélioration des traitements linguistiques automatisés, qui est notamment liée aux avancées dans le domaine de l’intelligence artificielle et certainement aussi à toutes les technologies liées au web sémantique.

Pour finir voici quelques exemples de moteurs sémantiques :  
Usage Professionnel :
Acetic
Aunotnomy
Sinequa

Usage Grand Public:
Hakia
Mooter
Clusty

Aina Raveloson

Aucun commentaire:

Enregistrer un commentaire

Remarque : Seul un membre de ce blog est autorisé à enregistrer un commentaire.