Valid XHTML     Valid CSS2    

A moi, comte, deux mots.

                     (Le cid, Acte II, scène 2)

ou : les ngrammes de Google avec n=2

 

                     gilles.hunault "at" univ-angers.fr

 

 

 

 
non su

Table des matières cliquable

 

1.

Les ngrammes de Google

2.

Ne pas confondre fait et conclusion, concomittance et causalité

3.

Si deux courbes suffisent à faire de la science...

4.

Au final, faut-il croire le Web ?

1. Les ngrammes de Google

Voici le premier scoop de cette journée : nous sommes dominés par les enfants. Totalement, entièrement. Ce n'est pas moi qui le dit, mais «la science» au travers des courbes d'évolution chronologique de ces mots (les fameux ngrammes de Google). En voici la preuve, scientifique, irréfutable :

               non su

Voici un autre scoop : les femmes dominent le monde, puisque "la" est fréquentiellement supérieur à "le" !

Et enfin, le troisième et dernier scoop, nous sommes tous des obsédées sexuelles ou des obsédés sexuels, vu qu'on a écrit beaucoup plus sur le sexe que sur l'abstinence... Enfin, pas tout à fait, qu'on a écrit plus souvent "sexe" que "abstinence", ce qui n'est pas pareil.

 
               non su               non su
 

Et c'est du sérieux, ces courbes : comme le dit le wiki français à propos des n-grammes, ce sont des sous-séquences qui sont «beaucoup utilisées en traitement automatique du langage naturel». Et la page enchaîne avec des formules de probabilités, une représentation d'une chaîne de Markov pour un mini corpus, etc. Les allemands, ici moins prolixes, y vont, dans leur page wiki de leur Dice-Koeffizient et renvoient à la page sur les fonctions-distances et c'est du lourd, avec une super-formule à la clé...

Au passage, apprenez qu'il s'agit sans doute de  non su   ou peut-être même de  non su,
bref de cette science (?) nommée lexicologie computationnelle qui n'a malheureusement pas sa page Wiki en français.

 
                    non su                         non su

 

Coté corpus, rien à redire, les p'tits gars du super-sérieux google LDC group ont bien travaillé, avec du vrai big data, songez-donc «1,024,908,267,229» mots (euh, comment ça se prononce, mille milliards ?), cinq millions de livres numérisés depuis 1800 jusqu'à nos jours (enfin, pas tout à fait, jusqu'à 2008), une "vraie grosse mine de données", vous dis-je... C'est quand même autre chose que Europeana, le Projet Gutenberg ou Gallica. Mais, bon, comme le font remarquer les "vrais" patriotes, c'est de la "gnognotte", si on compare à COHA comme on peut très justement le lire ici.

Mais revenons à notre sujet, à ces terribles affirmations. Tout ceci est vrai, ce sont des faits, «C'EST LA VERITE SCIENTIFIQUE» vérifiable, reproductible, C'EST LA REALITE... La preuve : allez sur le site Google des ngrammes, entrez les deux mots à rechercher (séparés par une virgule), n'oubliez pas de sélectionner le corpus français et vérifiez tout ce que je viens de dire...

On reproche à certaines études d'avoir un échantillon trop petit de personnes, d'induire un biais de sélection. Cela ne peut pas être le cas ici, avec autant de livres, autant de mots.

Et je peux multiplier les exemples : femelle est plus fréquent que male, féminité est plus fréquent que masculinité, virilité etc. Donc, messieurs, chapeau bas.

Voici toutefois une petite contradiction (qui prouve juste que le monde n'existe pas) : les molécules sont composées d'atomes et il y a donc plus d'atomes que de molécules. Or les ngrammes disent le contraire. Donc nous n'existons pas !

               non su                non su

Pour comprendre un peu mieux ce que sont les ngrammes, on peut consulter leur page wiki anglaise et leur page wiki française de même que la page wiki française du Ngram Viewer et sa version anglaise. Le lien ngrams/info fournit quelques explications quant à l'utilisation de ce visualiseur de ngrammes. En ce qui concerne les ouvrages numérisés, les liens Google_Books et Google_Livres donnent deux sons de cloches différents, ce qui montre qu'il faut se méfier des cloches !

 

2. Ne pas confondre fait et conclusion, concomittance et causalité

Au risque de choquer l'auditoire, il n'est pas possible de discuter ces faits, sauf à être de mauvaise foi. Contrairement à ma conférence précédente où certaines courbes avaient été trafiquées par des auteurs malveillants, ici, les courbes sont exactes car les faits sont vrais. Comme l'est la phrase «depuis que les femmes ont le droit de vote, le chomage a augmenté en France.». Par contre, ce qui est contestable, c'est la conclusion. Une technique classique consiste à jouer de la concomittance, à mettre deux phrases vraies ensemble, comme ici. Et si je vous disais : «depuis que les femmes ont le droit de vote, je ne cesse de vieillir.», que pouvez-vous en déduire ? Que je vais rajeunir si on supprime le droit de vote aux femmes ? Ridicule !

Mais en fait, si, il est possible de contester des faits. D'abord le corpus n'est pas de mille milliards de mots puisqu'on n'utilise que le corpus français, pas l'ensemble des corpus. Et il y a bien un biais de sélection puisqu'on n'utilise que la langue écrite. Et puis c'est aller un peu vite en besogne et mal connaitre la langue française. Si on parle de genre et de grammaire et si on utilise des articles, pourquoi ne pas faire un tour du coté des articles indéfinis quitte à ignorer le neutre ? Parce que, là, vous auriez une surprise : une n'est pas vraiment plus fréquent ou moins fréquent que un. Et ma "belle théorie" de la domination des femmes s'effondre....

               non su

Quitte à utiliser Google, pourquoi se limiter aux livres ? Voici un "jeu" encore plus vrai, encore plus ancré dans «la réalité» : saisissez deux mots dans le formulaire ci-dessous et appréciez le travail :

                 Mot 1               Mot 2             

On ne répétera jamais assez : concomittance n'est pas causalité et corrélation n'est pas causalité. En d'autres termes, ce n'est pas parce que deux phrases sont vraies qu'elles ont un rapport entre elles, qui plus est, de dépendance qui s'exprimerait, l'une en tant que cause et l'autre en tant qu'effet. Cessons d'être paresseux et de céder au biais d'opportunisme qui consiste à s'arrêter et à prendre pour argent comptant la première explication cohérente avec les faits.

3. Si deux courbes suffisent à faire de la science...

Deux mathématiciens, sans doute pourtant sérieux par ailleurs, Jean-Paul Delahaye et Nicolas Gauvrit ont publié un livre en 2013 nommé culturomics qui utilise les ngrammes avec n=2. On peut y lire notamment, page 119, dans le chapitre 3 intitulé Les mutations éducatives :


        Ces  quelques  exemples contredisent  donc ce que beau-
     coup affirment concernant  l'orthographe, à savoir qu'elle
     connaîtrait une détérioration rapide depuis un demi-siècle.
     Ce qu'on observe est plutôt une baisse de l'orthographe dans
     les années 1960,  et une amélioration  depuis  les  années
     1970-1980. Restons toutefois conscients des limites à fixer
     pour une interprétation en temres de réussite éducative :
     il s'agit de livres, et non de productions d'élèves, ce qui
     est évidemment tout à fait différent.
     
     

De quels exemples s'agit-il ? Des ngrammes liés à pallier versus pallier à fournis sur le même graphique, et des ngrammes liés à un soutien versus un soutient sur deux graphiques distincts. Selon l'adage «N'est pas statisticien(ne) qui veut », deux exemples avec deux ngrammes avec n=2 ne prouvent rien. Même si l'interprétation est intéressante, convaincante, ce n'est pas un fait. De plus les occurences de pallier contiennent celles de pallier à. Pire : si les ngrammes ne permettent pas de compter les x suivis de y qui ne sont pas des x tout seuls, alors la courbe ne montre rien... Et sur le site de ngrammes, rien ne permet de réaliser facilement cette distinction. Alors ?

Voici une «erreur» intéressante : j'ai voulu vérifié le ngramme de un soutien. Mais par inadvertance (hum), j'ai saisi ces deux mots et hop j'ai cliqué sur Envoyer, sans me rendre compte que le formulaire proposait le corpus English. Et là, miracle : l'expression un soutien apparait bien dans les livres anglais. Je vous le laisse vérifier ici : ngramme d'un soutien en langue anglaise et ci-dessous :

               non su

Du coup, que penser de ces corpus et du visualiseur de ngrammes ? Magie de la science, escroquerie ou problème de scannage des documents ?

Et le mystère s'épaissit quand on cherche un soutien en allemand, en espagnol, en italien, car on le trouve encore. Qui dans la salle est capable d'expliquer ce miracle polylinguistique ? Et pourquoi on ne trouve pas un soutien en russe ?

La démarche des deux auteurs français n'est pas unique, car elle est encouragée et même soutenue par le site culturomics qui a sa page wiki (mais en anglais seulement, ce qui permet de douter de son universalité). L'enjeu, immodeste au possible, est the study of human culture. Rien de moins. Sans culture, en fait, mais avec un ordinateur, qui, comme chacun sait, est très cultivé !

Dans la page Wiki sur la "culturomique", on peut lire qu'on aurait pu, rétroactivement localiser Ben Laden. Foutaise ! Pas besoin d'ordinateur pour cela. Et on peut faire mieux  Nostradamus avait tout prévu, comme on peut le lire ici. Pourquoi explorer 5 millions de livres alors qu'une petite dizaines (dont la Bible, le Coran, les écrits de Nostradamus) contiennent toutes les vérités, tout les faits à venir ?

Voici au passage si, en tant qu'universitaire, vous avez besoin de publications pour augmenter votre H-index ou plutôt votre indice H : prenez deux ou trois mots censés avoir un rapport entre eux, buvez un whisky, puis visualisez le ngramme associé et rebuvez un whisky (cela stimule les neurones). Vous trouverez alors forcément quelque chose à dire sur l'évolution de ces mots. Un peu de recherche bibliographique sur le web pour ces mots et hop, un whisky et vous disposez d'un article en moins d'une heure. C'est très rentable !

4. Au final, faut-il croire le Web ?

A force d'entendre des réflexions d'étudiant(e)s qui disent Monsieur ce n'est pas vrai car ce n'est pas sur internet ou plutôt car je ne l'ai pas trouvé avec Google, j'ai fini par créer la page qui permet de tout dire : elle contient de fausses vérités et de vrais mensonges, des auto-contradictions anti-réflexives (ouah !). Et surtout, je peux y ajouter n'importe quel fait, vrai ou faux, réel ou imaginé, vérifié ou fantasmé, ce qui "prouve" que le fait existe, au moins sur Internet, au moins dans cette page. Information, contre-information, désinformation sont donc présents ensembles. Mais comment les différencier ?

Dans ces années 2k où, à cause du volume d'informations vraies (ou que l'on peut raisonnablement penser vraies) sur Internet, de nombreux internautes confondent information, connaissance et culture et où de nombreux "faits" sont lus sur Internet, la question de la confiance que l'on peut accorder à Internet et aux médias en particulier n'est pas une question simple. D'abord parce qu'il n'est pas question de tout refuser, ni de tout accepter. Mais comment vérifier alors ce qu'on ne connait pas et qui est loin de nous ?

Que croire et qui croire ? Peut-on penser que «la science» échappe à ce phénomène, qu'une page Web qui traite de "faits scientifiques" ne peut être mise en doute ?

Au lieu du jeu stupide des deux mots mis dans «la machine à visualiser la culture», je vous propose un autre jeu, plus sérieux, mais toujours avec deux mots : le wiki bi-viewer. Quand vous cherchez un mot dans le wiki de votre langue natale, consultez aussi le wiki anglais. Cela fera souvent écho, mais vous y verrez de temps en temps des choses différentes. Et cela permet de prendre un peu de recul, voire éventuellement de relier la définition au pays...

Et si vous avez encore plus de compétences en langues, regardez aussi le wiki espagnol, anglais, italien, russe...

Appliquons ce principe que la réalité est dans la multiplicité aux ngrammes : avec la douzaine de liens qui qui suivent, comprenez-vous ce qu'est vraiment un gramme ? Pour les amatrices et amateurs de descriptions quantitatives, sur ces pages, lesquelles ont des formules de mathématiques ?
 

non su non su non su non su
non su non su non su non su
non su non su non su non su

 
On pourrait croire que les pages Wiki qui traitent d'informatique ou de mathématique sont "assez" fiables mais les 12 liens précédents montrent le contraire : comme il y a plusieurs points de vue, plusieurs façons d'aborder le sujet, il faut aussi se méfier de ces pages Wiki. A une certaine époque, les naifs pensaient qu'il y avait une seule définition des mots, à lire dans le dictionnaire. Aujourd'hui, 2014, on sait qu'il y a plusieurs dictionnaires, plusieurs références. Mais les «webeurs» («webeuses») pensent qu'il n'y a qu'une définition, celle du Wiki. Aidons-les à découvrir que ce n'est pas vrai...

 

(gH) La Rochelle, avril 2014.

 

 

retour gH    Retour à la page principale de   (gH)