6 Interne und externe Validität von Studien

Wie sehr ist es eine Studie wert, sie anzuschauen? Wann sind ihre Ergebnisse so deutlich, um eine Intervention für die Praxis zu favorisieren? Und – lässt sich die Intervention beim Patienten überhaupt anwenden? Die evidenzbasierte Praxis (EBP) fordert, Studien hinsichtlich ihrer wissenschaftlichen Güte zu beurteilen, um ihre Beweiskraft einzuschätzen und um die besten zur Verfügung stehenden Studien auszuwählen. Hier finden sich die Grundlagen für das Beurteilungskonzept der EBP.

Lernziele

Die Studierenden …

kennen die Begriffe “interne und externe Validität” und können die beeinflussenden Faktoren erläutern.
können die Begriffe Confounding und Bias erläutern und zwischen den Begriffen differenzieren.
können die häufigsten Bias-Typen physiotherapeutischer Studien aufzählen und diese erklären.
können die interne und externe Validität einer Studie anhand definierter Kriterien (PEDro-Skala) beurteilen.

6.1 Interne & externe Validität

Die Validität ist die Glaubwürdigkeit einer Studie. Eine gute Validität besagt, dass die Ergebnisse mit hoher Wahrscheinlichkeit der Wahrheit ziemlich nahe kommen. Je besser oder höher die Validität ist, desto mehr sollten die Therapeuten und Therapeutinnen die Studienergebnisse bei der Entscheidungsfindung berücksichtigen und in die Therapie einbeziehen.

Die interne Validität einer Studie betrifft dabei deren methodische Qualität. Kriterien sind beispielsweise, ob die Studie die Versuchsgruppen randomisiert hat, ob die Gruppen zu Beginn der Studie einander ausreichend ähnlich waren und ob nicht zu viele Patienten während der Studie abgesprungen sind.

Bei der externen Validität geht es um die Frage, ob die Ergebnisse generalisierbar sind und auch auf die Praxis übertragbar. Das heisst, dass sie nicht nur speziell für die untersuchte Gruppe gelten sondern auch praxisnah sind. Dazu gehören beispielsweise, ob die Probanden der Studie den Patienten im Alltag entsprechen, ob für sie geeignete Wirksamkeitsmessungen und Assessments durchgeführt wurden, ob genügend lange Nachbeobachtungszeit (Follow-up) eingeräumt wurde und ob die Behandlung gut beschrieben und praxisnah ist (Fransen & de Bruin, 2000).

6.2 Bias vs. Confounding

Ein Bias (Verzerrung) ist eine systematische, nicht zufällige Abweichung der Resultate von der Wahrheit. Dazu zählen alle Prozesse von der Aufgleisung der Studie (z.B. Rekrutierung, Gruppenzuteilung), über die Durchführung (Intervention), Datensammlung, Analyse, Interpretation, bis hin zur Publikation oder Zusammenfassung, die zu Schlussfolgerungen führen, welche systematisch von der Wahrheit abweichen (Porta et al., 2014).

Das Confounding beschreibt einen Zusammenhang, der zwar richtig, aber irreführend ist. Confounding resultiert von der Tatsache, dass eine beobachtete Variable (Confounder) nicht von einer zweiten Variable getrennt wurde und dadurch mit dieser zweiten Variable interagiert und täuschende Resultate hervorbringt “siehe Beispiel Abbildung” mit Kaffee als Confounder, der kein kausaler Zusammenhang zu Pnkreaskrebs aufweist, jedoch häufig bei Rauchern vorkommt (Guertin et al., 2015).

*Nicht kausaler Zusammenhang zwischen dem Confounder Kaffee und dem Outcome Pankreaskrebs (Guertin et al., 2015)*

Ein Bias kreiert einen Zusammenhang, der nicht der Wahrheit entspricht, während ein Confounding einen wahren Zusammenhang beschreibt, welcher aber irreführend und nicht kausal ist.

Note

Wichtig: Bei einer guten Randomisierung, inkl. grosser Stichprobe, werden (alle) Confounder gleichmässig auf beide Gruppen aufgeteilt und somit statistisch aufgehoben.

6.2.1 Bias Typen

Systematische Fehler oder Bias können in verschiedenen Phasen der Studien entstehen und zu Verzerrung oder Verfälschung der Resultate führen. Dies kann bereits bei der Studienplanung, aber auch der Durchführung und Datenerhebung oder bei der Analyse geschehen und die Resultate verfälschen. Zu den häufigsten Bias-Typen gehören Selections-Bias, Allocation-Bias, Interventions-Bias, Measurement-Bias und Attritions-Bias. Jeder dieser Bias-Typen hat spezifische Merkmale und Auswirkungen auf die Forschungsergebnisse, die im Folgenden näher erläutert werden.

Selection-Bias ist eine Verzerrung der Resultate aufgrund einer unpassenden oder nicht repräsantiver Stichprobewahl. Dazu gehört die Rekrutierungsmethode, die Ein- und Ausschlusskriterien, sowie die Übereinstimmung von potentiellen Probandinnen & Probanden mit der tatsächlichen Auswahl.

Beispiel: Wenn in einer Studie über die Wirksamkeit einer Trainingstherapie nur Patienten eingeschlossen werden, die bereits aktiv sind, könnte dies die Ergebnisse verfälschen, da diese Gruppe möglicherweise besser auf die Behandlung anspricht als die allgemeine Bevölkerung.

Allocation-Bias ist eine Verzerrung der Resultate, weil die zu untersuchenden Gruppen (Interventions- & Kontrollgruppe) nicht vergleichbar sind. Dies entsteht, wenn die Zuweisung oder Einteilung von Teilnehmern zu verschiedenen Behandlungsgruppen nicht zufällig (randomisiert) erfolgt und dadurch die Vergleichbarkeit der Gruppen beeinträchtigt wird (siehe Abbildungs Beispiel). Hinweis dazu gibt neben dem Methodikteil der Studie auch die Tabelle mit den Baseline Daten oder Charakteristik der Teilnehmer zu Beginn einer Studie.

*Allocation Bias durch ungleiche, nicht zufällige Verteilung der Gruppen.*

Beispiel: In einer Studie werden die ersten 50 Patienten der Kontrollgruppe und die nächsten 50 Patienten der Behandlungsgruppe zugewiesen. Wenn die Reihenfolge der Anmeldung eine Rolle spielt (z.B. melden sich motiviertere Probanden früher an), kann dies die Ergebnisse verfälschen.

Intervention-Bias ist eine Verzerrung der Resultate, weil die Art und Weise, wie dir Intervention durchgeführt wird zum Ergebnis führt aber nicht die Intervention selbst. Dazu gehören relevante Aspekte, wie das Studiendesign, die Blindierung von Probanden und der durchführenden Behandlungspersonen, die Kontamination (Beeinflussung oder Verfälschung durch andere Therapien, z.B. Medikamente) und die Adhärenz (Therapietreue).

Beispiel: Wenn eine Gruppe von Patienten in einer klinischen Studie intensiver betreut wird als die Kontrollgruppe, kann dies zu besseren Ergebnissen führen, die nicht nur auf die Wirksamkeit der Intervention zurückzuführen sind.

Measurement-Bias ist eine Verzerrung der Resultate aufgrund von Messfehlern und tritt auf, wenn die Methoden zur Datenerhebung systematisch fehlerhaft sind und dadurch die Ergebnisse der Studie verfälschen. Dies kann durch die Wahl der Messinstrumente oder Assessments, der Messzeitpunkte, der Blindierung der Messpersonen oder durch mangelhafte Gütekriterien der Messinstrumente geschehen.

*Der Measurement Bias als Verzerrung der Messung durch beeinflusste nicht blindierte Prüfer, unpassende Messinstrumente bzw. Assessments oder nicht adäquate Messzeitpunkte.*

Beispiel: Wenn in einer Studie zur Wirksamkeit einer physiotherapeutischen Behandlung zur Verbesserung der Schulterbeweglichkeit der Bewegungsumfang (ROM) von mehreren Therapeuten gemessen wird, die unterschiedliche Erfahrungen haben und den Bewegungsumfang aufgrund unterschiedlicher Handhabung der Messinstrumente konsistent zu hoch oder zu niedrig einschätzen.

Attrition-Bias ist eine Verzerrung der Resultate aufgrund von Studienabbrüchen. Er tritt auf, wenn die Abbruchrate von Teilnehmern allgemein hoch ist oder in den verschiedenen Behandlungsgruppen unterschiedlich hoch ist und dadurch die Endergebnisse der Studie beeinflusst. Dazu gehören die Einhaltung des Studienprotokolls, die Anzahl Studienabbrüche (Drop-outs) und die Methode, wie die fehlenden Daten ausgewertet wurden (z.B. Intention-to-treat Analyse).

Beispiel: Wenn in einer Studie zur Wirksamkeit eines spezifischen Trainingsprogramms für Rückenschmerzen überdurchschnittlich viele Patienten in der Kontrollgruppe vorzeitig die Studie abbrechen, weil sie keine kurzfristigen Verbesserungen erleben, kann dies die Ergebnisse verzerren, indem es die Wirksamkeit des Trainingsprogramms überbewertet, da vor allem die motivierteren und möglicherweise weniger schwer betroffenen Patienten in der Behandlungsgruppe verbleiben.

All diese Bias-Typen können die interne Validität und Zuverlässigkeit von Studienergebnissen erheblich beeinträchtigen, daher ist es wichtig, sie bei der Planung, Durchführung und Analyse von Studien zu berücksichtigen und möglichst zu minimieren (siehe Tabelle).

Bias Typen	Beschreibung	Vermeidung durch …	Bewertung durch …
Selection Bias	Verzerrung da Studienteilnehmer/ Stichprobe nicht repräsentativ für die Population ist	Gutes Sampling (Zufallsstichprobe) Multicenter-Studien (Rekrutierung in meherern Spitälern/Praxen)	Rekrutierung überprüfen Vergleich Stichprobe vs. Population
Allocation Bias	Verzerrung durch ungleiche Zuteilung der Interventions- & Kontrollgruppe	Randomisierung (zufällige Zuteilung zu Intervention- und Kontrollgruppe)	Gruppenvergleich der Baseline Data
Intervention Bias	Verzerrung durch Einfluss der Intervention, Therapeut oder Erwartungen	Gleichwertige Behandlungen oder Scheinbehandlung (Placebo) Blindierung der Probanden	Placebo Gruppe Blindierung der Probanden
Measurement Bias	Verzerrung durch abweichende Resultate aufgrund der Messmethode	Angemessene Messinstrumente & Messzeitpunkte Blindierung der Prüfer/Rater	Gütekriterien der Assessments Blindierung der Prüfer aufgeführt
Attrition Bias	Verzerrung durch fehlende Probandendaten (fehlende Daten, Differenzen Stichprobe zu Beginn & Ende der Studie / Studienabbruch)	Drop-outs minimieren (Studienabbruchrate) Intention to treat Analyse (ITT) durchführen	Drop-outs < 15% ITT ist aufgeführt / wurde durchgeführt

6.3 Hilfinstrumente zur Beurteilung von Studien

Als Studierende und angehende Praktiker:innen der evidenzbasierten Gesundheitsversorgung benötigen Sie die Fähigkeit zur kritischen Bewertung von Studien, um die Gültigkeit dieser Evidenz beurteilen zu können. Neben der Validität (Glaubwürdigkeit), muss auch die Beurteilung der Relevanz (Bedeutsamkeit, Wichtigkeit) mit der Anwendbarkeit in der Praxis beim kritischen Beurteilen berücksichtigt werden. So sollen Sie in der Lage sein Studien auf deren Qualität und Relevanz für die Praxis kritisch zu hinterfragen und zu bewerten. Um einen strukturierten und standardisierten Ansatz zur Bewertung der methodischen Qualität klinischer Studien zu verfolgen, lernen Sie zwei verbreitete Hilfsinstrumente, die PEDro Skala und das Gate-Frame kennen. Die zwei Assessments erleichtert den Vergleich zwischen Studien und verbessert die Konsistenz der Bewertungen.

6.3.1 PEDro Skala (De Morton, 2009)

Die PEDro Skala stellt dabei ein angemessenes und einfaches Werkzeug dar, um die Qualität von Studien systematisch und objektiv zu bewerten. Sie bietet einen standardisierten Ansatz zur Bewertung der methodischen Qualität klinischer Studien. Dies erleichtert den Vergleich zwischen Studien und verbessert die Konsistenz der Bewertungen. Die PEDro Skala konzentriert sich auf Aspekte der internen Validität von Studien, wie zufällige Zuweisung, Verblindung und die Vollständigkeit der Nachverfolgung. Diese Kriterien sind entscheidend, um die Glaubwürdigkeit und Zuverlässigkeit der Studienergebnisse zu beurteilen. Ihre breite Akzeptanz unterstreicht ihre Nützlichkeit und Zuverlässigkeit als Bewertungsinstrument. Die klar definierten Kriterien der PEDro Skala fördern Transparenz in der Bewertung und ermöglichen es anderen Forschern, die Bewertungen nachzuvollziehen, zu reproduzieren und mit anderer Literatur zu vergleichen. Dies erhöht die Vertrauenswürdigkeit der Bewertungen und der daraus abgeleiteten Schlussfolgerungen. Die PEDro Skala kann als Checkliste für einen schnellen und objektiven Überblick über die massgebenden Qualitätskriterien von Interventionsstudien (RCT) genutzt werden.

6.3.2 Gate-Frame (Jackson, 2006)

Ein weiteres wertvolles Werkzeug zur Beurteilung der Studienqualität ist das adaptierte Gate-Frame (Jackson, 2006). Im Gegensatz zu einigen anderen Bewertungsinstrumenten berücksichtigt das Gate-Frame sowohl die interne als auch die externe Validität einer Studie. Dies bedeutet, dass nicht nur die methodische Korrektheit, sondern auch die Anwendbarkeit der Ergebnisse und den Übertrag in die Praxis beurteilt wird. Das Gate-Frame bietet zudem auch eine klar strukturierte Methode zur Analyse von Studien und legt den Fokus auf die wichtigsten methodischen Komponenten, welche die Qualität und Validität einer Studie bestimmen. Dies umfasst die Bewertung der Stichprobenauswahl, der Interventionen, der Ergebnisse und der statistischen Analysen. Dabei konzentriert sich das Tool auf Schlüsselaspekte der Studienqualität, wie z.B. die Randomisierung, Blindierung, Nachverfolgung und den Umgang mit fehlenden Daten. Diese Aspekte sind entscheidend, um Verzerrungen zu minimieren und die Zuverlässigkeit der Studienergebnisse zu gewährleisten. Auf das adapted Gate-Frame wird vertieft im 2. Semester eingegangen.