Project

General

Profile

Actions

FaqLinea » History » Revision 2

« Previous | Revision 2/18 (diff) | Next »
Simon, 07/26/2007 06:56 PM


= FAQ Linea21 =

  • [#db Base de données] * [#mysqldb MySQL] * [#ftsmysql Le moteur de recherche ne me retourne pas des enregistrements qui contiennent pourtant mon critère de sélection. Pourquoi?]

Base de données #db

=== MySQL === #ftsmysql

==== Q : Le moteur de recherche ne me retourne pas des enregistrements qui contiennent pourtant mon critère de sélection. Pourquoi? ==== #ftsmysql

Tous les mots corrects de la liste et de la requête sont pondérés en fonction de leur importance dans la liste ou la requête. De cette façon, un mot présent dans de nombreuses lignes aura un poids faible (et peut être même un poids nul), car il a peu d'importance dans cette requête particulière. Au contraire, si le mot est rare, il recevra un poids fort. Le poids des mots sont alors rassemblés pour calculer la pertinence de la ligne.

Une telle technique fonctionne plus efficacement sur de grands volumes de données (en fait, elle est optimisée pour cela). Avec les toutes petites tables, la distribution des mots ne reflète par correctement leur valeur sémantique et ce modèle peut parfois produire des résultats étranges.

{{{

mysql> SELECT * FROM articles WHERE MATCH (title,body) AGAINST ('MySQL');
Empty set (0.00 sec)
}}}

La recherche du mot MySQL ne donne aucun résultat dans l'exemple précédent, car il est présent dans plus de la moitié des lignes. Ainsi, il est considéré comme un mot à ignorer (un mot avec une valeur sémantique nulle). C'est le comportement le plus optimal : un langage de requêtes ne doit pas retourner chaque ligne d'une table de 1 Go.

Un mot qui est trouvé dans la moitié des enregistrements d'une table n'est pas efficace pour trouver les document appropriés. En fait, il trouvera sûrement beaucoup de documents inappropriés à la recherche. On sait tous que cela arrive souvent lorsqu'on recherche quelque chose sur internet en utilisant un moteur de recherche. C'est en suivant ce raisonnement que ces lignes se sont vues attribuer une valeur sémantique très basse dans ce cas particulier .

Le seuil de 50% a un impact significatif lorsque vous commencez à comprendre comment fonctionne l'index : si vous créez une table et insérez une ou deux lignes, chaque mot apparaîtra dans 50% des lignes. Résultat, la recherche ne trouvera rien. Assurez-vous d'insérer au moins trois lignes, et même plus.

''extrait de la documentation MySQL :''BR
http://dev.mysql.com/doc/refman/5.0/fr/fulltext-search.html

Updated by Simon about 17 years ago · 2 revisions