Sollten niedrige p-Werte nicht mehr als der "Heilige Gral" betrachtet werden?

Do, 29.08.2019
Abschied von statistischer Signifikanz: Amrhein und über 800 seiner Fachkollegen plädieren in einem kürzlich erschienenen Artikel in der Nature dafür, den p-Wert nicht mehr als Goldstandard der wissenschaftlichen Welt zu verwenden.

Es ist heutzutage unvorstellbar und fast unmöglich, wissenschaftliche Ergebnisse zu veröffentlichen, ohne eine robuste statistische Analyse, die die vorgestellten Ergebnisse stützt. Diese statistische Analyse wird in der Regel mit einem p-Wert ausgewertet, um die Signifikanz eines Beobachtungsunterschiedes zu testen. Der p-Wert ist somit zum Goldstandard in der wissenschaftlichen Welt geworden. Obwohl es notwendig ist, bedeutsame statistische Analysen durchzuführen, ist es noch wichtiger, eine genaue Interpretation der Ergebnisse zu liefern, um Missverständnisse zu vermeiden. Diese Meinung teilen zumindest Amrhein und über 800 seiner Fachkollegen in einem kürzlich erschienenen Artikel in Nature.

Die Autoren warnten vor einer Fehlinterpretation von p-Werten und Konfidenzintervallen. Insbesondere sollte vermieden werden, Ergebnisse aufgrund eines hohen p-Wertes zu verwerfen, welcher als statistisch nicht signifikant betrachtet wird. Ähnliche Warnungen gelten auch für Konfidenzintervalle, die nicht als irrelevant betrachtet werden sollten, nur weil ein Nullwert im Intervall enthalten ist. Ebenso sollte die Erlangung eines niedrigen p-Wertes nicht zum "Heiligen Gral" werden, da die Ergebnisse im Kontext der Studie interpretiert werden müssen. Die Gefahr bei Studienkategorisierung in "statistisch signifikant" und "statistisch nicht signifikant" ist ein potenzieller Verlust wertvoller Informationen, was zu falschen Schlussfolgerungen führen kann.

Anstatt zum Nachweis einer statistischen Signifikanz automatisch eine Schwelle anzuwenden, die bereits eine beliebige Zahl ist, plädieren die Autoren dafür, dieses Kategorisierungskonzept zu verlassen und schlagen verschiedene Lösungen vor, die diesen Wandel erleichtern können. Dazu gehören:

  • Umbenennung von Konfidenzintervallen zu "Kompatibilitätsintervallen" und Interpretation der beobachteten Werten im Rahmen der Studie.
  • Erörterung der Punktschätzung unter Berücksichtigung der unterschiedlichen Unsicherheiten, um falsche Behauptungen zu vermeiden.
  • Ein Umdenken dahin, dass der p-Wert und das 95%-Konfidenzintervall beides gewählte Werte sind, die außerhalb dieses Kontexts nicht überinterpretiert werden sollten.
  • Bewertung von statistischen Annahmen unter Nutzung adäquater statistischer Analysen.

Nicht zuletzt durch die hohe Unterstützung dieses Vorstoßes wird klar, dass eine Abkehr vom starren p-Wert-Kategorisierungskonzept hin zu einem interpretationsbasierten Ansatz stattfindet. Dieser Wechsel könnte langfristig auch die Festlegung neuer Vorgaben für den Zusatznutzen von Arzneimitteln durch Institutionen wie dem IQWiG und dem G-BA beeinflussen.

Bei allen Fragen rund um die Erstellung des Nutzendossiers für den deutschen AMNOG-Prozess steht Ihnen die SKC Beratungsgesellschaft als kompetenter Ansprechpartner zur Seite.

VON Prof. Dr. Matthias P. Schönermark und Dr. rer. nat. Esther Nkuipou Kenfack

Quelle:
Amrhein V, Greenland S, and McShane B. Retire statistical significance. Nature 2019, 567, 305-307.

Über den Autor

Ihr Ansprechpartner Univ.-Prof. Dr. med. Matthias P. Schönermark
Univ.-Prof. Dr. med. Matthias P. Schönermark
Gründer und Geschäftsführer
Fon: +49 511 64 68 14 – 0
Fax: +49 511 64 68 14 – 18
nach oben