Wie verhindern wir wissenschaftliches Fehlverhalten in den Zeiten von AI?

Markus Pössel

Für mich war die interessanteste Erkenntnis aus der Podiumsdiskussion zum Thema ‘wissenschaftliche Integrität’, die beim 12. Heidelberg Laureate Forum stattfand, dass die Bedeutung des Begriffs stark von der eigenen Perspektive abhängt. Unterschiedlichen Perspektiven. Je nach Perspektive ändert sich, wieviel Gewicht man unterschiedlichen Formen von wissenschaftlichem Fehlverhalten beimisst.

Da wäre zunächst die Perspektive, die den wissenschaftlichen Fortschritt ins Zentrum stellt: Wie können wir verhindern, dass wissenschaftliches Fehlverhalten die Forschung als Ganzes kompromittiert? Heutige Forschung baut auf dem auf, was bereits an wissenschaftlichen Ergebnissen vorhanden ist. Wo Teile dieser Grundlage fehlerhaft sind, z.B. weil jemand Daten erfunden oder gefälscht hat, die er oder sie dann vorgab zu analysieren, dann steht alles, was auf jenem Teil der Grundlage aufbaut, ebenfalls auf wackligen Füßen. Schließlich gilt, wie es eine Panel-Teilnehmerin ausdrückte, die Mathematikerin Yukari Ito (Universität Tokio): Fachveröffentlichungen sollen dokumentieren, was Wissenschaftler und Wissenschaftlerinnen eines Fachgebiets für wahr halten.

Panel onstage.
Das Panel zu “Scientific Integrity.” V. l. n. r.: Benjamin Skuse, Lonni Besançon, Eunsang Lee, Yukari Ito. Bild: HLFF / Flemming

Bei der zweiten Perspektive geht es um wissenschaftliche Karrieren. Bewerben sich Wissenschaftlerinnen oder Wissenschaftler auf eine Postdoc-Stelle oder eine Professur, oder beantragen im “Tenure-track-Verfahren” eine Entfristung, dann spielt für die entsprechenden Entscheidungen ihre Publikationsliste eine wichtige Rolle. In einigen Einrichtungen wird gar eine Mindestanzahl an Publikationen pro Jahr als Voraussetzung für die Weiterbeschäftigung gefordert. Es gab sogar (und gibt wahrscheinlich immer noch) Einrichtungen, die ihren Forscherinnen und Forschern Geldprämien für Veröffentlichungen in renommierten Fachzeitschriften anbieten.

Behalten wir diese beiden Perspektiven einmal im Hinterkopf und betrachten zwei Formen wissenschaftlichen Fehlverhaltens: Erstens das Fälschen von Daten. Dabei wird etwa eine für die Veröffentlichung nötige Tabelle ganz oder teilweise erfunden, oder Bildmaterial wird nicht aufwändig aus einem Experiment gewonnen, sondern per Photoshop aus vorhandenem Material aus früheren Experimenten zusammengeschustert. Das Aufdecken solcher Fälschungen erledigt übrigens ein weiterer Panel-Teilnehmer, Lonni Besançon (Universität Linköping), ehrenamtlich in seiner Freizeit.

Die zweite Art von Fehlverhalten ist moderner. Wir sind damit beim Modethema “generative KI” angelangt: Solche KI kann ein legitimes Werkzeug sein (Offenlegung: ich habe diesen Text ursprünglich auf englisch geschrieben, und DeepL hat daraus den ersten Entwurf für die deutsche Fassung erzeugt). Aber KI kann auch wissenschaftliches Fehlverhalten unterstützen oder sogar erst ermöglichen. Im Extremfall könnte ein Forscher heimlich generative KI einsetzen, um einen kompletten Fachartikel zu erstellen, sei es mit Hilfe echter Daten oder sogar ganz ohne Datengrundlage.

Die Fälschung von Daten, sei es „von Hand“ oder durch KI-Halluzinationen, schadet der Forschung auf jeden Fall. Aber wie ist es mit einer KI-generierten Arbeit allgemein – sagen wir hypothetisch: einen mit KI auf Basis echter Forschungsdaten generierter Fachartikel, der bei der Bearbeitung ihres Themas alle methodischen Standards des Fachgebietes einhält? (Und nein, das kann KI heutzutage noch nicht so richtig.)

Dann würden die Unterschiede zwischen den verschiedenen Perspektiven wichtig. Dem wissenschaftlichen Fortschritt ist es egal, wer die Forschungsarbeit macht, solange jene Arbeit den Standards des entsprechenden Fachgebiets nach sauber ausgeführt wird. Aber selbst eine in dieser Hinsicht saubere Arbeit wäre natürlich nach wie vor Betrug, wenn ein Autor die entsprechende Veröffentlichung als echte Eigenleistung ausgibt, um sich damit Karrierevorteile zu verschaffen.

Eine Entkopplung der Perspektiven zeigte sich auch in der Live-Umfrage, die der Moderator Benjamin Skuse sein HLF-Publikum ausfüllen ließ. Die Frage war: Welche der nachfolgend aufgeführten Punkte haltet ihr für die größte Bedrohung für redliche Wissenschaft? Etwas zur Überraschung des Moderators landete „Fälschung/Verfälschung von Daten” auf dem ersten Platz, und verwies damit insbesondere „massenproduzierte genAI-Papers” auf den zweiten Platz. Ich nehme an: Die meisten derer, die abgestimmt haben, haben die Frage aus der Perspektive des wissenschaftlichen Fortschritts betrachtet, und sind für sich zu dem Schluss gekommen: massenhaft produzierte generative KI-Publikationen sind derzeit noch zu einfach als solche erkennbar, werden von seriösen Forschern weitgehend ignoriert, und so besteht keine größere Gefahr, dass sie den Forschungsstand eines Fachgebiets merklich stören.

Slide showing the results of the online audience survey. In order of descending importance, the chosen issues of scientific misconduct are: Data falsification, mass-produced genAI papers, conflicts of interest, plagiarism, and research mistakes
Ergebnisse der Publikums-Umfrage zu den verschiedenen Spielarten wissenschaftlichen Fehlverhaltens.

Aus Sicht des dritten Panel-Teilnehmers, Eunsang Lee von der Research Integrity Group des Springer-Nature-Verlags, ist bloßes Ignorieren bei solcher AI-Massenware leider keine Option. Bei den Verlagen bzw. bei den Fachzeitschriften kommt die entsprechende Flut in Form von Artikel-Einreichungen bereits jetzt an. Lee erwähnte fünf Artikel desselben Erstautors innerhalb eines Monats, und zwar in der Mathematik, die traditionell als „langsame Wissenschaft” gilt.

Was also tun? Und ja, wie der Rest des Publikums habe ich über Beispiele von tortured phrases, „gequälten Formulierungen” gelacht, die entstehen, wenn jemand derzeit generative KI bittet, einen Artikel zu paraphrasieren um beispielsweise ein Plagiat zu vertuschen. Ist in einem Text vom “unverwundbaren Gerüst” die Rede, wo dem Kontext nach das Immunsystem gemeint ist, ist das ein sehr deutliches Anzeichen dafür, dass etwas nicht stimmt. Warnzeichen dieser Art bieten zumindest bislang noch Möglichkeiten, betrügerische KI-Einreichungen bei Fachjournalen automatisiert zu erkennen.

Letztlich liegt der Schlüssel zum Umgang mit wissenschaftlichem Fehlverhalten aber meiner Überzeugung nach an einer anderen Stelle. Lonni Besançon sagte im Laufe der Diskussion: Wenn man als Kriterium eine Metrik einführt, wird es Leute geben, die speziell jene Metrik ausnutzen. Als verkürztes Beispiel: Wenn wir uns nicht mehr den Inhalt einzelner Veröffentlichungen anschauen, sondern Forschende allein nach der Quantität beurteilen (wie viele Fachartikel insgesamt? Wie viele in Prestige-Zeitschriften wie Science oder Nature?), dann müssen wir uns nicht wundern, wenn diejenigen, die gerne eine unbefristete Stelle in der Wissenschaft ergattern wollen, gezielt an der Menge ihrer Publikationen arbeiten, in der Regel dann zu Lasten der Qualität: gaming the metric; Kennzahlen gezielt für den eigenen Vorteil ausnutzen.

Zuende gedacht heißt das für mich, dass wir all die verschiedenen bequemen Abkürzungen, die sich im wissenschaftlichen Ökosystem etabliert haben, kritisch unter die Lupe nehmen müssen. Will man die wissenschaftliche Karriere eines potenziellen Kollegen bewerten, dann muss man eben doch die betreffenden Fachartikel lesen und verstehen (!), und sich darüber hinaus ggf. intensiv mit der betreffenden Person unterhalten. Die üblichen Abkürzungen zu bemühen, wie das Zählen von Erstautor-Publikationen oder das Berechnen von Metriken wie dem h-Index, kann diese Art inhaltlicher Auseinandersetzung nicht ersetzen.

Auch in der ersten Phase der Besetzung einer Stelle, nämlich der Erstellung einer Auswahlliste aus dem Bewerberpool, gilt: Verlässt man sich bei der Vorauswahl auf Kennzahlen, dann begünstigt man automatisch diejenigen, die sich aktiv bemühen, jene Kennzahlen zu optimieren.

Solche Kennzahl-Optimierungsprobleme gab es schon lange vor AI, von Papierfabriken über Salami-Veröffentlichungen (in jedem Fachartikel nur genau das Minimum die für eine Veröffentlichung nötige Dosis an neuem Ergebnis!) bis hin zu Zitierkartellen. Aber generative KI verschärft das Problem noch einmal deutlich. Hoffentlich ist das dann endlich der nötige Ansporn, die bequemen Abkürzungen im Wissenschaftsbetrieb konsequent zu beseitigen und die Wissenschaft damit insgesamt manipulationssicherer zu machen.

The post Wie verhindern wir wissenschaftliches Fehlverhalten in den Zeiten von AI? originally appeared on the HLFF SciLogs blog.