La récente mesure précise de la masse du boson W produite par la collaboration CDF non morte le mois dernier continue d’être au centre de l’attention de la communauté scientifique, pour une bonne raison – si elle est correcte, la mesure CDF en elle-même serait la preuve concluante que notre confiance dans le modèle standard de la physique des particules lors de la production de prédictions de la phénoménologie des particules a besoin d’une refonte importante.
Notez que ce qui précède ne signifie pas que la masse W est la seule raison de penser que notre compréhension des interactions fondamentales entre les particules élémentaires est incomplète. Les masses et les oscillations des neutrinos, le problème de la hiérarchie, la question de la matière noire, sont autant de questions en suspens pour lesquelles nous n’avons actuellement aucune bonne explication. Mais lorsqu’il s’agit d’estimer des quantités a priori calculables à partir d’autres données, l’écart entre la valeur mesurée et estimée de la masse du boson W est aujourd’hui l’exemple le plus frappant d’imperfection potentielle de nos calculs.
La situation peut être illustrée par le graphique ci-dessous, qui montre les mesures pertinentes de la masse W et la prédiction théorique. Il ne faut pas être un génie pour se rendre compte que le résultat CDF (celui du bas) et les prédictions théoriques sont si éloignés que l’un des deux (ou les deux) doit être faux.
La même conclusion peut être tirée si nous ne distinguons pas le dernier résultat CDF mais produisons honnêtement une moyenne pondérée de tous les résultats ; faire cela est en vérité délicat car certaines des incertitudes systématiques cachées derrière ces barres d’incertitude sont en partie corrélées entre certains des résultats expérimentaux ; mais nous ne devrions pas couper les cheveux en quatre lorsque nous examinons la situation dans son ensemble.
La vraie question, pour les expérimentateurs comme pour les théoriciens, a été différente, et ici j’ai entendu des déclarations avec lesquelles je ne suis pas d’accord, jusqu’à des affirmations directes d’incrédulité, que “le résultat du CDF est certainement faux”, etc. Les personnes titulaires d’un doctorat. ont produit des estimations selon lesquelles le résultat CDF est “quatre sigma à part” des autres, par ex. C’est de la foutaise, et dans le reste de cet article, je donnerai une brève contribution pour clarifier la question.
Lorsque vous êtes confronté à un ensemble de mesures d’une même grandeur physique, une question importante est de comprendre quelle est leur compatibilité mutuelle. S’ils semblent être sérieusement en contradiction les uns avec les autres, vous devriez éviter une combinaison directe, en attendant des études plus détaillées des corrélations internes, des incertitudes systématiques mal évaluées, des biais omis ou des erreurs du troisième type. Il est donc logique de discuter de la compatibilité des neuf résultats dans le graphique ci-dessus.
Ce que je vois que beaucoup ont fait, c’est de calculer la moyenne pondérée des huit mesures pré-CDF et de comparer le résultat avec la mesure CDF. La différence entre ces valeurs centrales, divisée par la somme en quadrature des deux incertitudes, est ce que nous appelons un _pull_ – un “nombre de sigma”, la signification de l’écart. Cette procédure est erronée en elle-même, et elle peut alors être aggravée si l’on confond le test unilatéral avec une divergence pour un test bilatéral – comme si les écarts de la mesure CDF “vers des valeurs élevées et plus discordantes SM” étaient un façon sensée de définir la région d’intérêt. Mais permettez-moi de prendre une chose à la fois.
Lorsque vous avez 9 mesures et que vous interrogez l’une d’entre elles sur la base de leur compatibilité mutuelle, vous faites implicitement quelque chose a posteriori : vous avez distingué la neuvième mesure parce qu’elle sortait du lot. Cette focalisation apparemment anodine sur laquelle huit résultats vous comparez à l’autre est la cause d’un changement des propriétés d’échantillonnage de l’estimateur d’écart – votre pull tel que défini ci-dessus.
Ce que vous devriez faire à la place, bien sûr, est l’une des deux choses.
– La première consiste à ajuster les neuf résultats ensemble et à extraire la probabilité de l’ajustement. Ceci, bien sûr, ne se concentrera pas uniquement sur CDF, et rejettera le blâme également sur toutes les mesures – ce qui est correct, bien sûr, car nous n’avons aucune raison a priori de douter de la valeur ou de l’incertitude publiée par CDF plutôt que, disons , par DZERO ou tout autre des 8 résultats précédents. Je laisse ce test au lecteur comme un exercice, car ce n’est pas le point principal que je veux faire dans cet article.
– Un deuxième test que vous voudrez peut-être faire, qui met en effet en évidence l’a-postériorité de la procédure de singularisation de CDF que j’évoquais plus haut, est de tester avec des pseudo-expériences quelle est la distribution des pulls que vous obtenez lorsque vous prenez le plus discordant de les neuf mesures et comparez-les aux autres. Ce ne sera *pas* une distribution gaussienne, et votre statistique de test n’est pas une traction appropriée – elle nécessite un étalonnage avant de pouvoir extraire une estimation de signification à partir de la valeur observée. Voyons comment faire cela.
On prend les 9 mesures expérimentales et on suppose que
1) ce sont toutes des estimations gaussiennes impartiales des mêmes grandeurs physiques
2) leurs incertitudes ne sont pas corrélées
3) leurs barres d’incertitude telles que citées sont correctes.
Maintenant, nous échantillonnons neuf nombres à partir de la même valeur centrale – peu importe laquelle, prenons donc 80400 MeV – avec les neuf gaussiennes citées G(80400,s_i), avec s_i (i=1…9) les neuf incertitudes citées .
Ensuite, nous trouvons la plus discordante des neuf estimations aléatoires, m_i*, et procédons au calcul de l’attraction comme précédemment, en obtenant d’abord la moyenne pondérée des huit autres, m_8 +- s_8, puis en calculant
P = |m_8 – m_i*| /sqrt(s_i*^2 + s_8^2).
Comme vous pouvez le voir, nous prenons la valeur absolue de l’écart, car nous ne pouvons pas sérieusement décider a priori si nous serons plus surpris d’un écart supérieur ou inférieur.
La recette ci-dessus peut être répétée cent mille fois en quelques secondes sur mon ordinateur portable. Tracer la distribution des résultats de P dans le graphique ci-dessous, où j’ai indiqué avec une flèche le résultat du calcul de la traction avec les neuf mesures réelles.
Maintenant, c’est clair : la statistique de test que nous calculons (en rouge) n’est pas gaussienne comme la traction calculée avec toutes les combinaisons possibles d’exclusion (en bleu) : elle est fortement biaisée vers les valeurs positives, car nous avons comparé à les huit autres résultats les plus discordants des neuf dans chaque pseudo-expérience. En conséquence, le pull que l’on calcule à partir des données réelles – 3,65 sigma – provient en fait d’une valeur p de 0,0024, ce qui correspond à une vraie signification de 2,82 écarts-types. La différence est flagrante, car une compatibilité au niveau de 2,82 sigma n’est pas un motif suffisant pour faire des allégations d’erreurs non fondées.
Mais il y a un détail supplémentaire (en fait, il y en a d’autres liés à la systématique corrélée, et ils jouent dans le même sens, mais laissez-moi omettre ceux par souci de brièveté ici) qui réduit encore le niveau d’attention au désaccord global revendiqué des mesures de masse W . En fait, si l’on prend les huit résultats qui sont comparés à celui du CDF, on constate que leur compatibilité interne est très bonne, mais pas encore parfaite.
Le chicarré de leur combinaison est de 8,3197, pour 7 degrés de liberté. Puisque nous décidons de comparer les 8 mesures précédentes à CDF et que nous vérifions ensuite la cohérence interne des deux, si nous commençons avec des résultats qui ne sont pas parfaitement compatibles entre eux (c’est-à-dire un ensemble pour lequel le chi carré combiné est de 1 par degré de liberté) nous ne faisons pas une vérification parfaitement impartiale – nous extrayons une traction en divisant par une somme quadrature des variances, et la variance de la moyenne pondérée des 8 mesures précédentes est plus petite qu’elle ne devrait l’être, étant donné que la combinaison a chi 2 > 1 ; cela produira une attraction plus importante dont le résultat CDF n’est pas coupable.
Nous pouvons donc prendre la prescription PDG consistant à redimensionner les 8 incertitudes par la racine carrée du chicarré réduit avant de calculer l’attraction ci-dessus. Le résultat est illustré ci-dessous.
Maintenant, la mesure CDF est à une différence de 2,56 écarts-types, soit un effet ap=0,0052. Ce n’est pas une nouvelle, les gens, marchez s’il vous plaît. La vraie question n’est donc *pas* de savoir si CDF a raison ou tort, d’un point de vue méthodologique : la question est de savoir s’il y a quelque chose qui ne va pas avec les mesures expérimentales dans leur ensemble, ou plutôt avec la prédiction du modèle standard.
Comme je l’ai écrit dans un article précédent ici, il est parfaitement acceptable de remettre en question la mesure CDF en elle-même, et en effet j’y ai fourni au moins quelques raisons pour lesquelles je pense que l’incertitude citée dans ce résultat pourrait être sous-estimée. Mais c’est une position différente de celle qui consiste à utiliser les huit mesures précédentes (qui, j’en suis sûr, ont leurs propres squelettes dans le placard) pour jeter le doute sur la seule mesure CDF !
†
Tommaso Dorigo (voir sa page web personnelle ici) est un physicien des particules expérimental qui travaille pour l’INFN et l’Université de Padoue, et collabore avec l’expérience CMS au CERN LHC. Il coordonne la collaboration MODE, un groupe de physiciens et d’informaticiens de 15 institutions en Europe et aux États-Unis qui visent à permettre l’optimisation de bout en bout de la conception des détecteurs avec une programmation différentiable. Dorigo est éditeur des revues Reviews in Physics et Physics Open. En 2016, Dorigo a publié le livre “Anomaly! Collider Physics and the Quest for New Phenomena at Fermilab”, un point de vue d’initié sur la sociologie des grandes expériences de physique des particules. Vous pouvez obtenir une copie du livre sur Amazon, ou le contacter pour obtenir une copie pdf gratuite si vous avez des moyens financiers limités.
†