La fabrique des sondages

Publié le par Gilles Delouse

 

     Horreur, malheur ! Marine le Pen est en tête au premier tour ! C’est un sondage qui l’a dit ! Et deux fois en plus ! Mais que faut-il vraiment penser de ce sondage ? La vérité statistique vaut-elle vérité politique ? D’ailleurs, ce sondage est-il au moins valable statistiquement ? Toutes ces questions ont empêché le Poisson Rouge de dormir, et il est donc parti rencontrer un statisticien (un vrai), qui a répondu à nos questions.

 

Marine Le Pen à 23%, c’est vraiment possible ?


     Ce n’est pas une surprise en tous cas. La stratégie de l’UMP de chasser sur les terres du Front National est évidemment un échec. Le seul résultat concret qu’elle ait amené c’est que les fachos sont sortis du bois, à l’UMP comme ailleurs. Mais les électeurs frontistes continuent à soutenir les Le Pen, d’autant plus que Marine a su rafraîchir l’image du parti (avec l’aide des médias qui participent honteusement à la banalisation du FN). De son côté, le Parti Socialiste est de plus en plus inaudible, entre querelles internes et cache-cache pour les primaires. Ajoutez à ça le conflit Sarkozy-Villepin, le scandale du procès Chirac, Hortefeux, MAM et compagnie, saupoudrez d’un peu de « tous pourris » et vous avez un bon paquet de gens qui se disent que la Marine a peut-être raison.

 

Les journalistes ont donc eu raison de s’alarmer ?


     Pas vraiment. En fait, la seule chose que montre ce sondage, c’est que 23% des personnes interrogées par Harris ont répondu qu’ils voteraient Marine Le Pen au premier tour des élections présidentielles… qui aura lieu dans 14 mois ! Il est complètement idiot de tirer la moindre conclusion d’un tel sondage ! Déjà, les candidats ne sont pas encore connus. Même Sarkozy n’a pas confirmé qu’il y allait. Les primaires socialistes n’ont pas encore eu lieu, on ne sait pas ce que feront le NPA et les Verts, et Mélenchon n’a pas encore été officiellement désigné. Donc présenter un premier tour Besancenot-Mélenchon-Aubry-Sarkozy-Le Pen n’a aucun sens. Les débats sur les programmes n’ont pas commencé non plus : l’élection présidentielle a beau être surtout une histoire de têtes, on peut quand même penser que les programmes influencent au moins un peu le choix des électeurs. Ajoutons également qu’en termes d’élections, plus de la moitié des votants font leur choix définitif dans l’isoloir. Alors qui peut penser qu’à 1link4 mois de l’élection les gens ont une idée de pour qui ils vont voter ? Enfin, surtout, si on prend en compte les intervalles de confiance, le résultat n’est plus si évident que ça.

 

Les intervalles de confiance ?


     Le principe d’un sondage, c’est exactement celui des problèmes de probabilité comme on peut en faire au lycée. On a une urne avec des boules de toutes les couleurs, on en tire 1000 au hasard, on les compte et on essaie d’en conclure quelque chose sur la composition réelle des boules dans la boîte. Le raisonnement basique c’est donc « on a 23% de boules brunes, 21% de boules bleues et 21% de boules roses dans ce qu’on a tiré, donc on a environ 23% de boules brunes, 21% de boules bleues et 21% de boules roses dans l’urne ». Tout est dans le « environ ». La théorie des probabilités nous apprend en effet que quand on tire au hasard, on fait une estimation du nombre réel, qui sera d’autant plus précise qu’on aura tiré un nombre important de boules, mais qu’en aucun cas on a calculé le nombre réel ! L’intervalle de confiance, c’est la taille de cet « environ ».

 

Donc le 23% de Marine Le Pen n’est peut-être pas un 23% ?


     Ce n’est certainement pas un 23%. Un calcul de probabilité assez rapide montre que quand on interroge 1000 personnes (l’échelle classique des sondages en France), l’intervalle de confiance (à 95%) est au minimum de plus ou moins 2%. Si l’on était rigoureux, on devrait donc dire « le score au premier tour des élections présidentielles de Marine Le Pen a 95% de chances de se situer entre 21 et 25% ». Du coup si on fait pareil avec les autres candidats, on obtient que le score d’Aubry et de Sarkozy est situé entre 19 et 23%. On comprend vite que l’ordre publié par Harris est quand même plus que douteux et que mathématiquement, une configuration avecAubry ou Sarkozy en tête est également possible avec ce sondage.

sondage-397x400.jpg

 

Tu as encore utilisé un terme technique : l’intervalle de confiance à 95%. Que signifie-t-il ?

     C’est la dernière subtilité mathématique que je voulais aborder. Les intervalles de confiance ne sont eux-mêmes pas justes. En théorie, on peut uniquement affirmer que le vrai paramètre a 95% de chances d’être dans l’intervalle qu’on donne. Ça signifie tout de même que dans 5% des cas, le vrai paramètre est en dehors de l’intervalle de confiance donné par le sondage. Revenons à notre urne : il est parfaitement possible qu’on tire un jour des boules qui soient toutes de la même couleur. La probabilité est très faible, mais la possibilité est réelle. La probabilité de gagner au loto est très faible aussi, ça n’empêche pas qu’à chaque tirage, il y ait des gagnants. Pourquoi ? Tout simplement parce que beaucoup de monde joue. Eh bien avec la multiplication des sondages on est en train d’assister à un phénomène analogue : la probabilité qu’un sondage se trompe est relativement petite (mais encore beaucoup plus grande que celle de gagner au loto, soyez-en assurés), mais comme on publie de plus en plus de sondages, on en publie de plus en plus qui sont faux. Il faut donc prendre beaucoup de recul par rapport à leurs résultats.

 

Pourtant, en refaisant le sondage avec d’autres candidats socialistes, Harris arrive au même résultat pour Marine Le Pen. Peuvent-ils se tromper trois fois de suite ?


     Là, on peut avancer deux hypothèses. La première c’est qu’effectivement, on a bien Marine Le Pen à 23%. Comme je l’ai dit précédemment, au vu de la situation politique actuelle, ce n’est pas impossible du tout. D’autant plus qu’on a assisté à un week-end hallucinant, à répéter à tout bout de champ que voter FN c’était être complètement con, ce qui renforce naturellement la position victimaire que ce parti adopte régulièrement. On avait déjà un Front en forme, après le week-end, on n’a fait que le renforcer. La seconde hypothèse, c’est que Marine n’est pas à 23%. Cela signifie que les trois sondages seraient faux. Mathématiquement, il est possible qu’on ait trois fois de suite des résultats faux avec un sondage bien fait, mais cela reste vraiment peu probable. Là, c’est plutôt la méthode d’Harris Interactive qu’on doit remettre en cause. Le sondage par internet est la pire des choses : entre la fracture numérique, la difficulté technique de contrôler l’identité des répondants,  le manque de sincérité des réponses et les incitations financières, on a une sorte de guide de tout ce qu’il ne faut pas faire en termes de sondage. La vérité est sans doute entre les deux : Marine Le Pen est semble-t-il au meilleur de sa forme, mais les sondages Harris surestiment probablement son score réel. Au-delà de ces deux hypothèses, on remarquera que dans les deux nouveaux sondages, les intervalles de confiance se chevauchent toujours, et qu’on ne peut donc toujours rien conclure des chiffres obtenus.

 

A qui profite le crime ?


     Daniel Schneidermann sur arrêt sur images a plutôt bien analysé la situation. Le premier à tirer profit de cette affaire c’est évidemment le Parisien, qui vend deux journaux sur un même sujet, sans avoir à creuser quoi que ce soit : total bénéf’. Le deuxième, c’est Harris, à qui l’on achète trois sondages coup sur coup, sans que ses méthodes quand même douteuses soient remises en cause. Quoiqu’il en soit, cette affaire montre deux choses. La première c’est que ni les journalistes, ni les politiques, n’ont la culture mathématique suffisante pour pouvoir comprendre ce qu’est un sondage, et que cela conduit à des non-sens totaux dont on fait des débats de portée nationale. La deuxième, c’est que le besoin d’une loi pour encadrer la publication des sondages, que ce soit en terme de nombre, de rigueur scientifique ou de publication des données brutes est de plus en plus évident, et que les députés UMP ont tout intérêt à se dépêcher de se remettre au travail sur la question.

 

Article tiré du site, ô combien conseillé : Le Poisson Rouge

Publié dans Questions de société

Commenter cet article