Comment votre éditeur de document fait pour vous signaler la présence de faute d'orthographe ? Autrement dis : comment la machine fait pour reconnaitre la langue française ? Il existe plus de trois cent mille mots de la langue française avec toutes les déclinaisons de conjugaison et d'accord. Si on on a un texte de seulement 1000 mots, il faudrait pour vérifier que chaque mot est correctement orthographier faire environ \( 1\ 000\times 300\ 000=300\ 000\ 000\) tests... trois cent millions de tests... c'est beaucoup (pour seulement un texte de mille mots).
Simplifions le problème et
parlons en binaire. Nous ne tapons qu'une suite de 0 et 1 et le caractère espace pour espacer ces mots :
11 0 11111 00 1 0 1 0 11 1 0 1
Imaginons que les seuls mots de notre langage binaire (mot du dictionnaire) soit toutes les suites de 0 et de 1 qui ne commencent pas par 0 sauf 0 lui-même. Ainsi dans le texte précédent, il y a une faute : le mot 00 est une faute.
On cherche un processus automatique permettant d'identifier rapidement la forme d'un texte.
Les informaticiens reconnaitrons les REGEX.
^[a-zA-Z0-9]+@[a-zA-Z0-9]{2,}\.[a-z]{2,4}