Reanalyse des Kasseler Wünschelrutentests der GWUP (Skeptiker 3/1992)
Suitbert Ertel
Suitbert Ertel
Im Folgenden wird dargelegt, warum eine kritische Prüfung des Kasseler Experiments zu dem Ergebnis führen kann, dass die GWUP mit diesem Beispiel ihrer Tätigkeit ihr Ziel noch nicht erreicht hat. Vorweg aber verdienen auch die Stärken der Untersuchung und des vorliegenden Berichts darüber (7) Erwähnung: Die technischen Anordnungen sind einfallsreich und nicht aufwendig, bei der Durchführung wurde die Einhaltung einiger wesentlicher Voraussetzungen beachtet (u.a. die Doppelblindbedingung), der Bericht ist detailliert und verschweigt z.B. auch nicht ungewollte Pannen. Doch nicht mit allem kann man einverstanden sein.
Die Frage, ob es die Wünschelruten-Sensibilität überhaupt gibt, ist eine andere als die Frage, ob ihre Stärke bestimmten Kriterien genügt. R. König et al. scheinen diese Unterscheidung zu ignorieren, da sie die Existenz des Phänomens erst anerkennen wollen, wenn es eine in der GWUP-Kommission festgesetzte beträchtliche Effektgröße erreicht. Die Rutengänger hatten für den Wassertest 30-mal ihre Ruten zu führen (bei jedem Durchgang war die Trefferwahrscheinlichkeit gleich 0.5), erst 25 von 30 richtigen Antworten (= 83% Treffer) bei einer Person wollten die Autoren als „Hinweis für die mögliche Existenz des Wünschelruteneffektes“ gelten lassen.
Zehnmal hatten die Testpersonen Metall in einem von 10 Kästchen zu finden. Erst bei 8 Treffern in 10 Durchgängen einer Person (bei jedem Durchgang war die Trefferwahrscheinlichkeit gleich 0.1) wollten die Prüfer einen solchen Hinweis akzeptieren. Die Zufallswahrscheinlichkeit solcher Trefferzahlen ist im ersten Fall p = 0.000 1, im zweiten p = 0.000000 12. Mit dieser Abweichung von den konventionell als statistisch bedeutsam erachteten Grenzwerten für „ob überhaupt“ (p = 0.05 oder p = 0.0 1) bzw. von den konventionellen Effektgrößen für „wie stark“ (55% Vorkommen wird als schon diskutable, 65% als mittlere und 75% als große Dominanz einer von zwei Alternativen betrachtet, die nicht gleich anteilig vorkommen, s. 2, S. 147-150) entfernen sich die Autoren beträchtlich von den geltenden methodenkritischen Normen.
Ihre Begründung für diese Willkür („Da es sich um außergewöhnliche Behauptungen handelt, die grundlegenden wissenschaftlichen Erfahrungen widersprechen, sollte ein hohes Signifikanzniveau gewählt werden“) ist nicht stichhaltig. Die Konsequenz aus der Tatsache, dass das behauptete Phänomen, falls existent, nicht erklärbar ist, könnte u.a. darin bestehen, dass es öfter als sonst üblich repliziert werden müsste, um beachtet zu werden. Auch sollte dann die Möglichkeit eines vitalen Nutzens oder Schadens ausgetestet werden. Denn wie etwa am Beispiel intellektueller Entwicklungsschäden durch erhöhtes Bleivorkommen in der Luft zu zeigen wäre (z.B. 9, zit. n. 3) kann die Sorge um das menschliche Wohlergehen die Bedenken des Theoretikers vertreiben, die sich ansonsten am Problem der geringen Mengen und der Nichterklärbarkeit des Zusammenhangs festzuhaken pflegen.
Zwar bleibt es im Falle des Wünschelrutenphänomens derzeit noch jedem freigestellt, unter Hinweis auf die vermutliche Schwäche der Effekte etc. auch seine mögliche theoretische und praktische Bedeutung als gering zu veranschlagen, solange entsprechende Folgerungen empirisch nicht erwiesen sind. Doch über die Existenz des Phänomens entscheiden unabhängig von Folgeerwägungen dieser Art Ergebnisse von Experimenten, die unter Beachtung der geltenden methodischen Kriterien der empirischen Wissenschaften durchgeführt werden (Näheres z.B. 4)-.
Das Versagen der Rutengänger gegenüber dem GWUP-Leistungssoll wird den Unkritischen unter den Skeptikern, die das Rutenphänomen ohnehin für eine Fiktion halten, genügen. R. König et al. bemühen sich dann allerdings auch um eine Analyse möglicherweise vorhandener kleiner Effekte. Doch sie berichten, dass sie nicht fanden, was bei weniger strengen Kriterien anderen Forschem als Hinweis auf eine Wünschelrutensensibilität genügt hätte: „Auch eine genauere Betrachtung der Resultate lieferte keinen Hinweis für einen kleinen Effekt. Allerdings (so wird eingeräumt) waren die Experimente nicht darauf angelegt, einen sehr kleinen Effekt zu erkennen“ (S. 9).
Eine noch genauere Betrachtung der Kasseler Daten gibt indessen Veranlassung, das Urteil über das Vorhandensein kleiner Effekte nochmals zu überdenken.
Tabelle 1 enthält die Gesamtzahl der Treffer (Spalte 4) sowie die Trefferzahl, differenziert nach den Bedingungen „Wasser fließt“ und „Wasser fließt nicht“ (Spalte 5-8).4. Für jede Person wurde die Zufallswahrscheinlichkeit der Trefferhäufigkeit nach der Binomialverteilung ermittelt (Spalte 13).
Summen: 296 150 146 139 134 284 285 289 280
1 Nr. Nummer des Probanden
2 Name = Name des Probanden (Abk.)
3 Zeit = Beginn des Tests
4 TR Treffersumme in 30 Durchgängen
5 ij Treffer “Ja” bei „Wasser fließt”
6 Nn Treffer “Nein” bei “Wasser fließt nicht”
7 Jn Fehler “Nein” bei “Wasser fließt”
8 Nj Fehler “ja” bei „Wasser fließt nicht”
9 j Summe der ja-Antworten
10 n Summer der nein-Antworten
11 J Summe der „Wasser-fließt-Fälle
12 N Summe der „Wasser-fließt nicht-Fälle
13 p Probabilität der Treffer
14 St Standardnormalwerte zu p
Tabelle 1: Treffer der 19 Versuchsteilnehmer im Wassertest und andere Ergebnisse
Am Metallexperiment hatten nur 14 der 19 Rutengänger teilgenommen. Die GWUP-Autoren schlossen davon eine Person aus, da sie „von den vorher festgelegten Bedingungen abwich“. Da ihre Berücksichtigung die „Kernaussage nicht verändert hätte“, wurde sie in die vorliegende Analyse mit einbezogen.
Tabelle 2 zeigt zunächst, wie häufig die 10 Kästchen als Versteck verwendet wurden und wie häufig die Rutengänger in ihnen das Vorhandensein des Versteckten „gemutet“ haben. Dabei fällt auf, dass die Kästchen sehr verschieden häufig als Versteck dienten (zwischen 7- und 23-mal). Die Ungleichverteilung ist überzufällig (Chi2 = 20.29, df = 9, p = 0.02). Offenbar ging das Verfahren der Zufallswahl unerwartet eigene Wege: Aus einem Behälter hatte der Versuchshelfer jedesmal einen Pingpongball zu ziehen und von ihm eine Schachtelnummer abzulesen. Der Pingpongball wurde zurückgelegt. Vermutlich hat der Versuchshelfer die Bälle dann nicht gut genug durcheinander gemischt.
| Schachtel-Nr. | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | Summe |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Versteckhäufigkeit | 12 | 8 | 13 | 7 | 9 | 23 | 18 | 22 | 12 | 16 | 140 |
| Mutungsentscheidung | 10 | 8 | 10 | 12 | 20 | 20 | 14 | 16 | 17 | 13 | 140 |
| Trefferhäufigkeit | 0 | 0 | 2 | 1 | 1 | 2 | 3 | 3 | 2 | 1 | 15 |
Zudem fällt auf, dass die Schachtelnummem 6 – 10 im Verhältnis zu den Schachtelnummern 1 – 5 als Versteckplatz sehr viel häufiger vorkamen (91-mal gegenüber 49-mal). Der Unterschied in der Verwendung von höheren und niedrigeren Nummern ist hochsignifikant (Chi2 = 12.6, df = 1, P = 0.00 1).
Was die Mutungshäufigkeit betrifft, so finden wir allerdings interessanterweise ebenfalls eine Präferenz bei den höheren Schachtelenummern (6 – 10, n 80) im Vergleich zu den niedrigen (1 – 5, n 60). Nach dem Chi2-Test, der zur Prüfung hier naheliegt, ist dieser Unterschied signifikant (Chi2 = 2.86, df = 1, p = 0.05). Die Mutungsfrequenz bei den 10 Schachteln korreliert im übrigen mit der Versteckfrequenz r = 0.44, p = 0.09 (nach Pitman). Man darf bei dieser Tendenz einen Zusammenhang zwischen dem Ort des Verstecks und dem Ort des Mutens für gut möglich halten, die Rutengänger konnten vielleicht wegen des geringen Abstands der Kästchen voneinander das Versteck nicht besser diskriminieren. Da jedoch nicht bekannt ist, welche Orte die Rutengänger unter „Placebo“-Bedingung präferiert hätten – es könnte ein Positions-Response-Set zugunsten höherer Schachtelnummern bestehen („rechts vor links“) – sind bei diesem Ergebnis keine sicheren Schlussfolgerungen über einen Zusammenhang zwischen Versteckort und Mutungsort erlaubt.
| Summe | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Durchgang | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
| Trefferhäufigkeit | 1 | 1 | 1 | 0 | 2 | 2 | 0 | 3 | 3 | 2 | 15 |
Immerhin wurde aber ein davon unabhängiger indirekter positiver Hinweis gefunden: Tabelle 3 zeigt die Trefferfrequenzen, differenziert nach Versuchsdurchgang Nr. 1 bis 10. Es fällt auf, dass die Trefferzahl im Laufe der trial-Serie zunimmt (Korrelation zwischen trial-Nummer und Trefferzahl rho = 0.67, Pitman r = 0.64, p = 0.029). Der hier offenbar vorliegende Zusammenhang zwischen Versuchsnummer in der Serie und Trefferzahl, der im übrigen die plausiblere Richtung hat (es könnte ein „warming-up“-Effekt sein), unterstützt den Verdacht, dass die Wünschelrutensensibilität ein reales Phänomen darstellt.
Das Ergebnis des Kasseler Wünschelrutenexperiments entspricht dem Resultat der Forscher H.L. König und H.-D. Betz (6) in zweifacher Hinsicht. Einerseits wurde nochmals gezeigt, dass Wünschelrutengänger dazu neigen, ihre Fähigkeiten zu überschätzen. Andererseits ergab eine Reanalyse der Daten sowohl des Wasser- als auch des Metallexperiments, dass überhaupt Fähigkeiten solcher Art höchstwahrscheinlich existieren. Anhand der Daten wurden überzufällig häufige Mutungszusammenhänge gefunden. Dass dieses Ergebnis in einem Experiment erzielt wurde, das von erklärten Skeptikern durchgeführt wurde, spricht für seine Glaubwürdigkeit. Es ist zu begrüßen, dass die GWUP „bei geeigneten Voraussetzungen weitere Experimente zu Wünschelruten-Behauptungen […] durchführen will“ (S. 10). Bei einer Beteiligung anderer Forscher, die ggf. auch den Skeptikern gegenüber skeptisch und gleichzeitig mitwirkungsbereit bleiben, wäre eine Verbesserung des Designs im Sinne des erfreulicherweise hohen Anspruchs der GWUP an sich selbst von vornherein wahrscheinlicher. Wenn die Frage des „ob überhaupt“ so regelmäßig wie bisher bejaht werden kann, wird man sich voll der Frage nach dem „wie stark“ zuwenden Kennen und die effektoptimierenden Bedingungen klären.6
Es wird vorgeschlagen, dann folgende Verbesserungen zu bedenken:
Herrn Kollegen Prof. H.-D. Betz und Herrn A. Sarma danke ich für die freundliche Überlassung von Kopien der Kasseler Untersuchungsprotokolle, Herrn PD Dr. w. Hager für die freundlichen Kommentare bei seiner Lektüre einer Vorform des Artikels.
Eine etwas erweiterte Fassung dieses Artikels erscheint in der Zeitschrift für Parapsychologie und Grenzgebiete der Psychologie
Der Beitrag erschien erstmals in Skeptiker 3/1992, S. 69-72

Kalk – das Gespenst in der Wasserleitung