DER STANDARD, 23. Oktober 1999


Von den Tempelwächtern der Wissenschaft.

Wer kontrolliert die Kontrolleure? Wer evaluiert die Evaluierer? Das Peer-Review-System auf dem Prüfstand der Wissenschaftsforschung.


Gerhard Fröhlich

In den Wissenschaften herrscht, ähnlich wie in der katholischen Kirche ("nihil obstat"), offiziell Zensur. Allerdings ist sie eine relative: Niemand wird am Forschen gehindert - aus eigener Tasche finanziert, und auf eigene Kosten in einem Kleinverlag vervielfältigt oder ins Web gestellt. Doch von den Hardlinern der Evaluation werden vielfach nur Beiträge in "peer reviewed" Journalen als wissenschaftlich akzteptiert. Bücher oder detaillierte Forschungsberichte ("Graue Literatur") seien nur von geringem Wert.

"Peer-Review" (P-R) nennt sich das Kontrollsystem, der TÜV der Wissenschaften: Gutachter (wenn man etwas auf sich hält: anonyme Gutachter - ohne Angst vor Rache) sichern Qualität, verhindern Redundanz und Chaos - so die offiziöse Sicht. Noch wichtiger: Sie entscheiden mit bei wissenschaftlichen Karrieren, Mittelverteilung, Kongreßzulassung, Auswahl von Preisträgern.

Doch der Ruf des P-R-Systems ist in letzte Zeit (erneut) schwer angeschlagen. Das Vertrauen in die Fähigkeit des Peer-Review-Systems, wissenschaftliche Leistungen objektiv zu beurteilen, ist sehr gesunken. Bei der Aufdeckung von Plagiat und Betrug haben Gutachter versagt, ja einige wurden selbst als Plagiatoren entlarvt - die bundesdeutschen Starkrebsforscher Herrmann/Brach lehnten z. B. einen Projektantrag als Gutachter ab, um ihn (bei derselben Stiftung) unverändert selbst einzureichen - mit Erfolg. Genährt wird die wachsende Welle der Kritik durch zahlreiche negative empirische Befunde zum P-R-System:
- Zwei Psychologen hatten zwölf angesehenen Journalen ihrer Zunft je einen Aufsatz entnommen und diese bereits veröffentlichten Manuskripte (nach Änderung der Verfassernamen etc.) jeweils bei denselben Zeitschriften erneut eingereicht. Nur drei von zwölf Herausgebern erkannten die in ihren Journalen vor eineinhalb bis drei Jahren bereits publizierten Aufsätze wieder. Die übrigen Aufsätze wurden erneut begutachtet: Nur ein einziger Beitrag wurde angenommen, alle übrigen wurden negativ begutachtet abgelehnt ("schwerwieg ende methodologische Mängel").
- Je 50 abgelehnte und akzeptierte Projektanträge an die National Science Foundation, USA, wurden erneut von NSF-Gutachtern bewertet. Fazit der Wissenschaftsforscher: Annahme oder Ablehnung des Antrags sei zufällig.

Gutachtern fällt es schwer, Distanz zu eigenen Vorurteilen oder politischen Einstellungen zu wahren. In der Psychologie fand sich ein eindeutiger politischer Gutachter-Bias: Je ähnlicher die politische Einstellung von eingereichtem Beitrag und Referees, desto weniger Fehler finden diese. Politisch gegnerische Gutachter finden mehr Fehler und urteilen negativer. 672 Universitätsprofessoren, befragt über ihre Erfahrungen mit Gutachtern, beklagten einen Anpassungsdruck an höchst eigenbrötlerische Wünsche der

Gutachter, unzutreffende Kritik, mangelnde fachliche Fähigkeiten, herablassende Behandlung, achtlose, unaufmerksame Lektüre der Manuskripte.

Peer-Review-Hardliner könnten kontern: negative Bewertungen kämen von enttäuschten, gescheiterten WissenschaftlerInnen. Doch bundesdeutsche (Mittelbau-)Angehörige führen gerade ihre bisherigen Veröffentlichungserfolge auf "Glück und soziale Beziehungen" zurück. Ähnlich berichteten die von Harriet Zuckerman untersuchten Nobelpreisträger von ungerechtfertigter Überschüttung mit Belohnungen und Bevorteilungen.

Eigenschaften von Gutachtern und Markt scheinen das Schicksal von Manuskripten in höchstem Maße zu beeinflussen: Die Strenge der Referee-Urteile hängt demnach vom Lebensalter der Gutachter ab: je jünger, desto rigider. Die Rigidität junger Gutachter wird mit ihrer Angst, Fehler zu übersehen, und mit ihrem Ehrgeiz, gegenüber Herausgebern guten Eindruck zu schinden, erklärt. Noch wichtiger ist das Verhältnis zwischen Angebot und Nachfrage. Manuskriptangebot und Abweisungsraten in der Psychologie sind extre m hoch (70 Prozent), jene in der Physik hingegen niedrig.

Die Refereetätigkeit bringt zwar Macht und Informationsvorsprünge, wird aber meist unhonoriert nebenher betriebe: Drei Viertel der Referees sind nicht einmal über das endgültige "Schicksal" der von ihnen referierten Manuskripte informiert. Die anonyme Begutachtung verkommt zum Prestige-Schmuck: Autoren bezeichnen ihre Veröffentlichungen selbstbevorteilend fälschlicherweise als anonym begutachtet. Nicht einmal auf Journal-Verzeichnisse ist Verlaß : Nur die Hälfte von 784 klinischen Journalen wurde übereinstimmend von zwei verschiedenen Directories als peer reviewed angeführt.

Befragte WissenschaftlerInnen bewerten das Gutachtersystem zum Gutteil negativ, vor allem seine Rationalität, Effizienz, Objektivität und Innovationsfreudigkeit. Das (den Gutachtern) Bekannte werde gefördert, das Unbekanntere behindert; bereits bekannte EinreicherInnen oder solche aus angesehenen Institutionen würden bevorzugt. Eingefahrene Themen, Modelle, Theorien hätten bei der Begutachtung gute Chancen, da den Gutachtern geläufig. Bei innovativen oder gar interdisziplinären Ansätzen sei hingegen die Gefahr enorm , dass Eingereichungen von den Gutachtern - aufgrund eigener Unkenntnis - abgelehnt würden.

Die Kritiker der (meist einseitigen) Anonymität des Referee-Systems befürchten, dass diese Mechanismen unter dem schützenden Mantel (oft einseitiger) Anonymität greifen: die Gutachter wüßten zwar um die Identität der Einreichenden, jedoch nicht umgekehrt. Letzteren werde vielfach sogar der Gutachtenstext vorenthalten, sie könnten daher Fehler und Irrtümer der Gutachter nicht richtigstellen.

Oft scheint die Behandlung von Projektanträgen bzw. Manuskripten recht willkürlich.Viele Studien belegen die mangelnde Übereinstimmung der Gutachter. Nur ein Teil der Journale legt die Kriterien ihrer Gutachter offen - sofern überhaupt vorhanden. Die Qualität von Artikel, welche die Hürden des Gutachtersystems erfolgreich überwunden haben, wird in inhaltsanalytischen Studien kritisiert. Artikel in angesehenen deutschsprachigen Soziologie-Journalen könnten demnach kaum durch andere methodisch überprüft werden - unverzichtbare Angaben dazu fehlten in fast allen Beiträgen der Stichprobe; den Gutachtern scheint dies entgangen zu sein.

Verteidiger des Systems vergleichen oft P-R.-Bewertungen mit gleichlaufenden Zitationshäufigkeiten. Doch diese, höchst umstritten, sind für genau denselben Bias anfällig: Bereits etablierte Theorien, Methoden, WissenschaftlerInnen, Institutionen werden durch "Impact"-Werte belohnt (z. B. durch Aufnahme in Datenbanken), ihre Resonanz weiter verstärkt, innovative, noch statusniedrige Außenseiter hingegen bestraft (Mertons "Matthäus-Effekt").

Reformvorschläge pochen auf Einsichtnahme in die vollständigen Gutachtentexte durch die Begutachteten, verbindliche, offengelegte Kriterienlisten für Gutachter, seltener die regelmäßige Begutachtung der Referees selbst. Radikalere KritikerInnen fordern statt der bisherigen Arkanpraxis ein offenes System, z B. die Lagerung von Manuskripte, Gutachten, Stellungnahmen und Kritiken in digitalen Preprint-Archiven. Die Anonymität der Gutachter solle aufgehoben werden, sie beeinträchtige offene Diskussion und Kritik, aus Angst vor Rache der Kritisierten im Schutze der Anonymität. Andere hingegen fordern die allgemeine Durchsetzung der Doppelblindbegutachtung (das heißt, auch die Identität des Begutachteten wird während des Verfahrens geheimgehalten). Im Vergleich zu Einfachblindverfahren schneiden Doppelblindverfahren besser ab, auch die Benachteiligung von WissenschaftlerInnen aus statusniedrigeren Institutionen verringert sich.

Ich schlage vor, dem Zufall mehr Raum zu geben:
- In der BRD werden Zivilprozesse den Richtern vom Computer per Zufall zugewiesen, um eine Verzerrung durch Willkür zu verhindern. Durch die Bestimmung von Gutachtern kann ein Herausgeber das Ergebnis des Gutachtens nämlich erheblich vorherbestimmen. Zudem zeigen Befunde, dass Herausgeber einen Großteil der Begutachtungen oft an einige wenige "Oligopolisten" vergeben, das Gros des Gutachterpools hingegen nur fallweise heranziehen. In paradigmenschwachen Gebieten und pluralistischen Journalen könnte je ein Gutachter aus dem eigenen und dem "feindlichen" Lager zufällig ausgewählt werden.
- Finanzämter fordern bei der Bearbeitung der Einkommensteuererklärungen nicht von vornherein alle Belege an; die Steuerpflichtigen müssen aber damit rechnen, dass ihr Fall aufgerollt wird und sie sämtliche Unterlagen vorlegen müssen. Es würde analog dazu die Kontrollmöglichkeit von Schlamperei und Betrug etwas verbessern, wenn projekt- bzw. Manuskripteinreicher einkalkulieren müssten, mit einem Risiko von fünf bis zehn Prozent zufällig ausgewählt zu werden, ihre Rohdaten und Labor-Tagebücher vorzuweisen (bisher sind diese laut Nachfolgestudien meist "verlegt, verbrannt, verloren gegangen"). Sorgfalt und Qualität der Gutachten könnten gesteigert werden, wenn die Refereees wüssten, dass ein weiterer Referee ihre Stellungnahme begutachten könnte. Systematische Stichprobenkontrollen würden vor allem jenen Verteidigern des bisherigen Systems den Wind aus den Segeln nehmen, die Reformen mit dem Hinweis auf den unermeßlich steigenden Aufwand an Zeit und Kosten ablehnen.
- Schließlich könnte man aus der Klage, das Peer-Review-System sei ein "Lotteriespiel", eine Tugend machen: Warum nicht einen kleineren Teil des Forschungsbudgets tatsächlich in Form einer Innovations-Lotterie nach Losentscheid ausschütten? []

Technische Daten und bibliographischen Angaben der erwähnten Studien sind beim Autor erhältlich:
gerhard.froehlich@iwp.uni-linz.ac.at


DER STANDARD, 23./24. Oktober 1999
Automatically processed by COMLAB NewsBench
 zurück zur Übersicht