Warum Schulen an wirkungslosen Präventionsprogrammen festhalten – und wie De-Implementation gelingt

Einleitung: Eine Schulwoche im April 2026

Mittwochmorgen, dritte Stunde, eine Realschule in Westfalen. Im Klassenraum der 8b läuft eine Doppelstunde Suchtprävention. Eine externe Fachkraft hat ein Modul mitgebracht, das die Schule seit 2014 jährlich einkauft. Die Lehrkraft kennt den Ablauf: Quiz zu Wirkstoffen, ein kurzes Video, Diskussion über Risiken, Abschlussplakat. Das Modul wird im Schulprogramm unter „Lebenskunde Klasse 8" geführt und vom Förderverein finanziert. Die Konferenz hat es vor zwölf Jahren beschlossen. Es steht im Stundenplan, weil es im Stundenplan steht.

Niemand fragt, ob das Modul wirkt. Es gibt keine Evaluation. Es gibt keine Vergleichsdaten zur Konsumprävalenz vor und nach Einführung. Es gibt keinen Abnahmemechanismus, der bei wiederholter Wirkungslosigkeit eine Beendigung auslösen würde. Es gibt nicht einmal eine systematische Rückmeldung der Schülerschaft. Was es gibt, sind Routine, eine Rechnung, ein Eintrag im Jahresplan und der vage Eindruck, dass „etwas getan wird".

Diese Lage ist nicht Westfalen-spezifisch. Sie ist der Normalfall. Und sie ist, in der Sprache der Implementationswissenschaft, ein (Samuelson & Zeckhauser, 1988) in Verbindung mit einer Eskalation der Verpflichtung, wie sie Barrett, Sleesman und Spear (2023) erstmals systematisch für den schulischen Kontext beschrieben haben. Sie ist nicht das Ergebnis schlechten Willens, sondern eines Zusammenspiels aus psychologischen, organisationalen und externen Kräften, die Schulen davon abhalten, Programme zu beenden, deren Wirkungslosigkeit empirisch bekannt ist.

Dieser Beitrag ordnet die Befunde von Barrett et al. (2023) in die breitere Forschung zur De-Implementation ein – also zum geordneten Beenden eingeführter Programme, das die internationale Implementationswissenschaft inzwischen als eigene Disziplin behandelt. Er geht zwei Fragen nach: Erstens, warum halten Schulen an Programmen fest, deren Wirkungslosigkeit oder dokumentiert ist? Zweitens, was ist aus der internationalen und deutschsprachigen Empirie über das geordnete Beenden bekannt? Die Argumentation bewegt sich entlang der Befunde der Implementations- und Präventionswissenschaft, ohne sie einseitig auszulegen. Wo Wirkungen klein, ungewiss oder kontextabhängig sind, wird das benannt. Wo Programme wirken, auch.

Eine Vorbemerkung zum Wortgebrauch: „Wirkungslos" meint in diesem Beitrag Programme, deren empirische Wirksamkeitsnachweise auf zentrale Zielgrößen (Konsumprävalenz, Inzidenz, Delinquenz) fehlen oder negativ sind. „Iatrogen" meint Programme, deren Effekt auf zentrale Zielgrößen nachweislich schadet. Beides ist nicht dasselbe wie „kontrovers diskutiert" oder „nicht abschließend belegt"; beides setzt einen empirischen Beleg voraus. Der Beitrag verzichtet bewusst auf Pauschalurteile gegenüber etablierten deutschsprachigen Programmen, deren Wirksamkeitsbefundlage gemischt oder positiv ist.

Theoretische Verortung: Was heißt „wirkungslos"?

Vier konzeptuelle Schichten müssen sortiert werden, bevor die Frage der Beendigung sinnvoll diskutiert werden kann.

Erste Schicht: Wirkungshierarchie. Präventionsprogramme können auf unterschiedlichen Ebenen wirken. Ein Programm kann Wissen verändern, ohne Einstellungen zu verschieben. Es kann Einstellungen verschieben, ohne Konsumintentionen zu beeinflussen. Es kann Intentionen beeinflussen, ohne tatsächliches Verhalten zu ändern. Und es kann Prävalenzen senken, ohne die Inzidenz – also den Erstkonsum bei jenen, die noch nicht eingestiegen sind – zu beeinflussen. Diese Hierarchie ist seit Jahrzehnten etabliert und in der Cochrane-Übersicht von Foxcroft und Tsertsvadze (2012) explizit gemacht. Welche Stufe als „Erfolg" zählt, ist eine Vorab-Entscheidung; sie wird in der Praxis oft implizit getroffen, was spätere Wirksamkeitsdebatten unklar werden lässt.

Zweite Schicht: Programmtypologie. Die international einflussreichste Klassifikation stammt von Tobler et al. (1999): Sie unterschieden in ihrer von 37 Cannabis-Präventions-Evaluationen zwischen non-interaktiven Programmen (Vorträge, Wissensvermittlung, affektive Übungen) und interaktiven Programmen (Lebenskompetenzen, soziale Einflussmodelle, normative Korrektur). Die Befunde waren eindeutig: „Non-Interactive lecture-oriented prevention programs that stressed knowledge about drugs or affective development of students showed minimal reductions in marijuana use. Interactive programs that fostered the development of social competencies showed greater reductions" (Tobler et al., 1999, S. 105). Faggiano et al. (2014) bestätigten diesen Befund in einer Cochrane-Synthese mit 51 randomisiert kontrollierten Studien und über 127.000 Teilnehmenden: kompetenzbasierte Curricula reduzieren Cannabis-Konsum signifikant, affektive und wissensorientierte nicht. Foxcroft und Tsertsvadze (2012) zeigten für Alkohol-Prävention, dass nur 6 von 11 alkoholspezifischen und 14 von 39 generischen Schulinterventionen signifikante Effekte produzierten. Die Trefferquote für ungeprüfte Programme liegt also empirisch unter 50 Prozent.

Dritte Schicht: low-value, contradicted, harmful. Norton, Chambers und Kramer (2019) haben für die Versorgungsforschung eine Typologie vorgeschlagen, die hier hilfreich ist. Sie unterscheiden vier Kategorien zu beendender Programme: contradicted (durch nachfolgende Evidenz widerlegt), unproven (nie ausreichend geprüft), low-value (geringe Effekte bei vergleichsweise hohen Kosten) und harmful (negative Effekte auf zentrale Zielgrößen). Diese Differenzierung erlaubt es, das gemeinsame Etikett „beenden" auf vier sehr unterschiedliche Konstellationen herunterzubrechen. Reine Aufklärungs-Stunden sind häufig unproven oder low-value, Scared-Straight-Programme sind harmful, D.A.R.E. in seiner ursprünglichen Form ist contradicted.

Vierte Schicht: epistemische Beweislast. Wer trägt die Beweislast – die Schule, die ein Programm einsetzt, oder die Kritik, die seine Wirksamkeit anzweifelt? In der medizinischen Versorgung hat sich die Antwort verschoben: Choosing-Wisely-Initiativen, US Preventive Services Task Force und Cochrane setzen voraus, dass Anbieter für die Wirksamkeit einer Maßnahme Belege liefern (Norton & Kripalani, 2024). In der schulischen Prävention ist diese Beweislast nicht institutionalisiert. Programme können eingeführt werden, ohne Wirksamkeitsbelege vorzulegen, und sie können fortgeführt werden, ohne sie nachzuliefern. Diese Asymmetrie ist eine der strukturellen Voraussetzungen für die Eskalation der Verpflichtung.

Diese vier Schichten greifen ineinander. Eine Schule, die eine Wirkungshierarchie implizit auf der untersten Stufe setzt („Wissen ist gestiegen"), die Programmtypologie nicht kennt („Wir machen Aufklärung"), die Norton'sche Klassifikation nicht anwendet („Wir sehen keine Schäden") und keine Beweislast trägt („Es wird ja niemand sagen, das sei falsch"), wird systematisch jene Programme weiterführen, die keine relevanten Wirkungen erzielen. Die Eskalation der Verpflichtung ist nicht das Ergebnis einer einzelnen falschen Entscheidung, sondern das Ergebnis einer institutionellen Konstellation.

Die Studie Barrett, Sleesman und Spear (2023): Befund und Methode

Ausgangsfrage und theoretischer Anker

Die Studie von Barrett, Sleesman und Spear (2023) erschien in Prevention Science, dem Fachorgan der Society for Prevention Research. Sie ist die erste empirisch fundierte Anwendung des Konzepts der Eskalation der Verpflichtung auf Schulen. Das Konzept selbst stammt aus der Organisationsforschung. Staw (1976) zeigte in seiner experimentellen Studie „Knee-deep in the big muddy", dass persönliche Verantwortung für eine Anfangsentscheidung das wiederholte Investieren in einen scheiternden Kurs systematisch erhöht. Arkes und Blumer (1985) ergänzten den -Effekt: Menschen halten an Investitionen fest, sobald diese versenkt sind, auch wenn die Vor-Investitionen normativ irrelevant sind. Brockner (1992) systematisierte das Konzept theoretisch und identifizierte drei definierende Bedingungen: getätigte Investitionen, negative Wirkungsindikatoren und Unsicherheit über den Erfolg bei Fortsetzung. Sleesman, Conlon, McNamara und Miles (2012) und Sleesman, Lennard, McNamara und Conlon (2018) fügten die Mehrebenen-Perspektive hinzu: Eskalation findet nicht nur auf der individuellen Ebene statt, sondern auch in Gruppen, Organisationen und gegenüber externen Akteuren.

Barrett et al. (2023) übertragen dieses Theoriegebäude auf den Schulkontext. Ihre Forschungsfrage lautet: Wenn Wirkungsindikatoren zeigen, dass ein Programm nicht funktioniert – wie reagieren Schulleitungen, und welche Faktoren beeinflussen ihre Entscheidung über die Fortsetzung?

Methode

Die Autorinnen und Autoren wählten eine Grounded-Theory-Methodik – ein interpretatives qualitatives Verfahren, das aus den Daten ein theoretisches Rahmenmodell entwickelt, statt ein vorhandenes zu testen. n = 24 Schulleitungen aus einem Mittleren-Westen-Bundesstaat der USA wurden in halbstrukturierten Interviews befragt, bis theoretische Sättigung erreicht war. Die Befragten wurden gebeten, „laut zu denken", während sie über reale Programmentscheidungen sprachen. Beide Autorinnen kodierten unabhängig, schrieben Memos und entwickelten Fokuscodes. Aus den Daten entstand ein theoretisches Rahmenmodell, das Eskalation der Verpflichtung in Schulen abbildet.

Hauptbefunde

Drei Befunde stechen hervor.

Erstens schreiben Schulleitungen schwache Wirkungsindikatoren selten dem Programm selbst zu. Stattdessen verweisen sie auf Implementations-Probleme (zu wenig Schulung, zu wenig Zeit, falsche Lehrkraft), Führungs-Schwächen oder die Unzulänglichkeit der Indikatoren selbst. Das ist anschlussfähig an die Forschung zur Selbstrechtfertigung (Brockner, 1992): Wer eine Einführungsentscheidung getroffen hat, neigt dazu, deren Folgen so zu lesen, dass die Ausgangsentscheidung gerechtfertigt bleibt.

Zweitens identifizieren die Autorinnen drei Klassen von Determinanten, die die Fortsetzungsentscheidung beeinflussen: psychologische, organisationale und externe. Diese Klassifikation entspricht der Mehrebenen-Perspektive von Sleesman et al. (2018) und wird im folgenden Kapitel ausgeführt.

Drittens variieren Reaktionen und Determinanten systematisch. Berufserfahrung, Schuldemografie, Budgetlage und unerwartete Ereignisse (etwa die COVID-19-Pandemie) verschieben das Gleichgewicht zwischen den drei Determinanten-Klassen. Eine Schulleitung kurz vor dem Ruhestand reagiert anders als eine im fünften Berufsjahr; eine sozial belastete Schule reagiert anders als eine selektive.

Was die Studie nicht zeigt

Die Befunde sind qualitativ und beziehen sich auf einen US-Bundesstaat. Sie liefern keine quantitativen Häufigkeiten, keine Effektgrößen und keine direkten Empfehlungen für deutsche Schulträger. Die Übertragbarkeit ist plausibel, aber nicht empirisch geprüft – ein Punkt, auf den der Beitrag im Abschnitt zur deutschsprachigen Übertragbarkeit zurückkommt. Zudem konzentriert sich die Studie auf die Entscheidungsperspektive der Schulleitung; Lehrkräfte, Schülerschaft, Eltern und externe Anbieter kommen nur indirekt vor. Die Autorinnen markieren diese Limitationen explizit in ihrer Diskussion.

Psychologische Schicht: Sunk Cost, Selbstrechtfertigung, Status-quo-Bias

Die psychologischen Determinanten, die Barrett et al. (2023) identifizieren, sind kein Schulspezifikum. Sie sind der jahrzehntelang dokumentierte Kern der Eskalations-Forschung.

Sunk Cost. Arkes und Blumer (1985) zeigten in zehn Experimenten, dass Investitionsentscheidungen systematisch durch bereits getätigte, normativ irrelevante Vor-Investitionen verzerrt werden. Wer ein Theaterticket gekauft hat, geht trotz Schneesturm; wer ein Programm finanziert hat, führt es fort. Übersetzt auf Schulen: Eine Konferenz, die ein Programm beschlossen hat, eine Schule, die in Materialien investiert hat, eine Lehrkraft, die sich schulen ließ, hat versenkte Kosten, die das Beenden psychologisch verteuern – auch wenn diese Kosten ökonomisch nicht zurückkehren, ob das Programm fortgesetzt wird oder nicht.

Selbstrechtfertigung. Staw (1976) belegte experimentell, dass Personen mit persönlicher Verantwortung für eine Ausgangsentscheidung erneute Investitionen in einen scheiternden Kurs deutlich wahrscheinlicher tätigen als Personen ohne diese Verantwortung. Brockner (1992) systematisierte diesen Befund: Selbstrechtfertigung – das Bedürfnis, die eigene Anfangsentscheidung im Nachhinein als richtig zu rahmen – ist nach Brockners Theoriesynthese der zentrale psychologische Mechanismus. Eine Schulleitung, die ein Programm vor zehn Jahren eingeführt hat, hat ein anderes Verhältnis zu seiner Beendigung als eine, die es vorgefunden hat. Barrett et al. (2023) bestätigen diesen Mechanismus qualitativ: Befragte berichteten von „fear of harming their own reputation" und einer „fear of innovation fatigue".

Status-quo-Bias. Samuelson und Zeckhauser (1988) zeigten in klassischen Feld- und Laborstudien, dass Menschen die jeweilige Standardoption auch dann beibehalten, wenn alternative Optionen objektiv überlegen sind. Übertragen auf den Schulalltag bedeutet das: Ein Programm, das einmal eingeführt ist, ist die Standardoption. Es zu beenden, erfordert eine aktive Entscheidung, die kognitiv, emotional und sozial teurer ist als die passive Fortführung. Die Kombination aus Sunk Cost, Selbstrechtfertigung und Status-quo-Bias ergibt eine kognitive Konstellation, in der das Beenden systematisch unterproduziert wird – nicht weil Schulleitungen unwissend wären, sondern weil die Architektur der Entscheidung gegen Beendigungen arbeitet.

Eine offene Frage. Whyte (1991) zeigte experimentell, dass die Verteilung von Verantwortung auf eine Gruppe die Eskalation reduzieren kann: Wer mit anderen entschieden hat, fühlt sich weniger persönlich verantwortlich und kann leichter aussteigen. Sleesman et al. (2018) widersprechen in Teilen: In ihrer Mehrebenen-Synthese kann Gruppenentscheidung Eskalation auch verstärken, etwa wenn Konformitätsdruck oder asymmetrische Informationsverteilung Widerspruch unterdrücken. Die Befundlage ist also nicht eindeutig. Für die Praxis bedeutet das: Gemeinsame Entscheidungen sind nicht automatisch ein Schutz gegen Eskalation. Sie sind es nur dann, wenn die Teamkultur explizites Widersprechen kultiviert und nicht stille Zustimmung belohnt.

Organisationale Schicht: Programmtradition, Druck der Beteiligten, Führungskultur

Die zweite Determinanten-Klasse, die Barrett et al. (2023) identifizieren, liegt auf der Ebene der Organisation Schule und ihrer Träger.

Programmtradition. Barrett et al. (2023) berichten, dass Schulleitungen Programme häufig deshalb fortführen, weil sie zur Identität der Schule gehören. Ein Programm, das seit zehn Jahren im Schulprogramm steht, ist nicht mehr nur ein Programm; es ist ein Selbstverständnis. Diese „programmatische Sedimentierung" ist ein in der Implementationswissenschaft gut bekannter Befund. Wiltsey Stirman et al. (2012) zeigen in ihrer systematischen Übersicht von 125 Studien, dass die Verstetigung eines Programms häufig nur teilweise gelingt: Einzelne Programmkomponenten überleben, ohne dass die ursprüngliche Programm-Logik noch greift. Scheirer (2005) findet in 14 von 17 untersuchten Studien, dass mindestens eine Komponente eines Programms nach Jahren in mindestens 60 Prozent der Standorte weiterbetrieben wird, oft losgelöst vom ursprünglichen Wirkmodell. Programme werden, mit anderen Worten, oft Teil der Routine, lange nachdem ihre evidenzbasierte Anfangsbegründung verblasst ist.

Druck der Beteiligten und Schulkultur. Die zweite organisationale Kraft ist sozialer Natur. Eine Schulkultur, die Konsistenz höher gewichtet als Selbstkorrektur, macht das Beenden teuer. Eine Schule, in der mächtige Akteure (Eltern-Initiativen, Vorstände des Fördervereins, etablierte Lehrkräfte) ein Programm verteidigen, wird es nicht beenden, auch wenn die Wirkungsdaten dies nahelegen. Sleesman et al. (2018) zeigen, dass „organisational cultures that value success or consistency may discourage people from speaking up when problems emerge, especially when powerful individuals want the course of action to continue". Aarons, Ehrhart, Farahnak und Hurlburt (2014) ergänzen die Führungsperspektive: In Schulen mit schwach an evidenzbasierter Praxis ausgerichteter Führungskultur fehlen die Strukturen, in denen Programmbeendigungen als legitime Option überhaupt diskutiert werden.

Reform-Müdigkeit. Barrett et al. (2023) berichten ausdrücklich von Befragten, die eine „fear of innovation fatigue" angeben. Das Argument lautet: Lehrkräfte sind ohnehin überlastet; weitere Veränderungen sind unzumutbar; lieber bei dem bleiben, was eingespielt ist. Diese Sorge ist nicht trivial. Die Implementations-Literatur ist sich einig, dass jede neue Implementation Kapazität bindet (Damschroder et al., 2009). Aber sie ist auch ein klassisches Eskalations-Argument: Es lädt die Last des Beweises auf die Beendigung, nicht auf die Fortsetzung. Aus der Reform-Müdigkeits-Sorge wird so ein Schutz für jenes Programm, dessen Wirkungslosigkeit gerade die Frage aufwirft.

Die Frage der Programmtreue. Eine wichtige Differenzierung kommt von Durlak und DuPre (2008). In ihrer einflussreichen Übersicht (über 500 quantitative Studien, mehr als 5.000 zitiert) zeigen sie, dass die Qualität der Umsetzung die Programmwirkung substantiell beeinflusst. Schwache Wirkung kann also durchaus Umsetzungsprobleme widerspiegeln und nicht das Programm selbst. Carroll et al. (2007) operationalisieren Programmtreue über fünf Dimensionen: Einhaltung des Curriculums, Dosis, Qualität der Vermittlung, Beteiligung der Adressaten und Abgrenzung gegenüber konkurrierenden Inhalten. Die Konsequenz für die Praxis: Bevor ein Programm als wirkungslos beendet wird, lohnt eine ehrliche Diagnose der Umsetzungsqualität. Aber diese Diagnose darf nicht das Ende der Frage sein. Sie muss in eine zeitlich befristete Entscheidung münden – Programm verbessern oder beenden, nicht: Umsetzungsprobleme als Dauerbegründung für ausbleibende Effekte etablieren. Genau diese Dauerbegründung ist es, die Barrett et al. (2023) bei vielen Befragten finden.

Externe Schicht: Geldgeber, Vorgaben, mediale Sichtbarkeit

Die dritte Determinanten-Klasse liegt jenseits der Einzelschule.

Geldgeber und vertragliche Bindungen. Programme werden häufig durch externe Mittel finanziert. Förderlinien laufen mehrjährig, Verträge mit Anbietern sind nicht jährlich kündbar, Förderbescheide knüpfen die Mittelverwendung an die Fortführung des Programms. Barrett et al. (2023) verweisen auf die Verstärkungs-Wirkung externer Akteure: Entscheidungsträger halten an einem scheiternden Kurs fest, weil andere Organisationen einen ähnlichen Kurs verfolgen oder weil Geldgeber den Kurs erwarten. Im deutschen Kontext sind das Krankenkassen nach , Kultusministerien, Stiftungen und kommunale Träger – Akteure mit eigenen Logiken, die das Beenden eines Programms nicht zwingend einfacher machen.

Politisch-normative Vorgaben. In Deutschland ist Suchtprävention nicht bundeseinheitlich geregelt. Die Bundeszentrale für gesundheitliche Aufklärung publiziert Empfehlungen, die Länder regeln Bildungspläne, die Kommunen finanzieren Träger. Diese Vielschichtigkeit erzeugt Pfadabhängigkeiten: Ein Programm, das in einer Förderperiode aufgenommen wurde, läuft fort, weil keine einzelne Stelle die alleinige Zuständigkeit für sein Beenden hat. Graf und Stöver (2019) dokumentieren in einer qualitativen Studie zu Qualitätsstandards in der deutschen Suchtprävention die Lücke zwischen verfügbaren Standards (etwa den European Drug Prevention Quality Standards, ) und ihrer realen Umsetzung. Standards existieren, sie sind bekannt, aber sie greifen in der Praxis nicht durch.

Mediale Sichtbarkeit und symbolische Funktion. Eine dritte externe Kraft ist die symbolische. Schulen kommunizieren mit Programmen nach außen, dass sie „Prävention ernst nehmen". Programmbeendigungen ohne sichtbaren Ersatz produzieren das Gegenteil: einen Eindruck von Untätigkeit. In den USA wurde Project D.A.R.E. trotz seiner negativen Wirksamkeitsbilanz lange weiterfinanziert, nicht zuletzt, weil es symbolisch hochsichtbar war (Lynam et al., 1999, diskutieren explizit „why DARE remains so popular, despite the lack of documented efficacy"). In Deutschland sind solche Symbolfunktionen seltener so ausgeprägt, aber existent: Polizei-Präventionsbesuche, Drogen-Theaterstücke und einmalige Aufklärungsveranstaltungen sind nach außen gut sichtbar; ihre Wirkungs-Datenlage ist es nicht.

Was die externe Schicht praktisch bedeutet. Eine Schule kann eine Programmbeendigung psychologisch und organisational sauber durcharbeiten und an externen Verpflichtungen scheitern. Der Förderverein hat zugesagt, der Vertrag läuft drei Jahre, die Eltern erwarten den jährlichen Auftritt der externen Fachkraft. Diese Konstellation ist keine Schul-Eigenheit; sie ist eine systemische Eigenschaft der deutschen Präventionslandschaft. Beendigung ist daher selten ein Akt der Schule allein; sie ist ein Akt im Mehrebenen-System.

D.A.R.E. und seine Wiedergänger

Project D.A.R.E. (Drug Abuse Resistance Education) ist das prominenteste Beispiel der internationalen Präventionsforschung für ein Programm, dessen Wirkungslosigkeit empirisch dokumentiert ist und das dennoch über Jahrzehnte fortgeführt wurde.

Das Programm. D.A.R.E. wurde 1983 in Los Angeles entwickelt: Polizeibeamte unterrichten in Klassen 5–6 ein 17-stündiges Curriculum zu Drogenrisiken und Widerstandsfertigkeiten gegenüber Konsumdruck. Das Programm wurde landesweit verbreitet, in Spitzenjahren erreichte es etwa 75 Prozent der US-Schulbezirke und kostete den Bund jährlich rund 750 Millionen US-Dollar (West & O'Neal, 2004).

Die empirische Bilanz. Ennett, Tobler, Ringwalt und Flewelling (1994) führten die erste methodisch rigorose Meta-Analyse durch: 8 Evaluationsstudien, weighted effect size für Drogenkonsum zwischen .00 und .11, Mittelwert .06. Lynam et al. (1999) untersuchten in einer prospektiven 10-Jahres-Studie n = 1.002 Jugendliche, die als Sechstklässler an D.A.R.E. teilgenommen hatten. Im Alter von 20 Jahren zeigten sich keine Effekte auf Drogenkonsum, Einstellungen, Selbstwert oder Widerstandsfertigkeiten. West und O'Neal (2004) replizierten die Meta-Analyse mit 11 Studien und kamen zum gleichen Schluss: „Our results confirm the findings of a previous meta-analysis indicating that Project D.A.R.E. is ineffective."

Die Reaktion. D.A.R.E. wurde nicht beendet, sondern überarbeitet. Die Programm-Organisation entwickelte „New D.A.R.E." (später „keepin' it REAL"), das stärker auf interaktive Elemente setzt. Diese Reaktion ist aus Sicht der Eskalations-Forschung instruktiv: Statt das Programm zu beenden, wurde die Marke gerettet. Die Überarbeitung hatte methodische Vorteile, aber sie verschob die Diskussion: Aus der Frage „Sollten wir D.A.R.E. weiterführen?" wurde die Frage „Funktioniert das überarbeitete D.A.R.E.?". Die ursprüngliche Negativ-Evidenz blieb gültig, aber sie band Aufmerksamkeit nur noch begrenzt.

Übertragung auf Deutschland. D.A.R.E.-spezifische Programme existieren in Deutschland nicht. Aber Strukturanaloga gibt es: einmalige Polizei-Schulbesuche zu Drogen-, Gewalt- oder Cyber-Themen sind in mehreren Bundesländern fester Bestandteil schulischer Prävention. Wirksamkeitsstudien dieser Formate liegen für Deutschland nicht in dem Umfang vor, der ein abschließendes Urteil erlauben würde – ein Befund, der für sich genommen relevant ist: Wo keine Evaluation existiert, kann Wirkungslosigkeit nicht behauptet, aber auch nicht ausgeschlossen werden. Die zuvor skizzierte Beweislast-Frage wird hier praktisch.

Scared Straight und konfrontative Abschreckung

Scared-Straight-Programme sind die zweite klassische Negativ-Vignette der Präventionsforschung. Sie konfrontieren delinquenz-gefährdete Jugendliche mit Häftlingen und Gefängnisrealitäten, in der Annahme, dass die abschreckende Erfahrung künftiges Fehlverhalten verhindert.

Die Cochrane-Bilanz. Petrosino, Turpin-Petrosino, Hollis-Peel und Lavenberg (2013) aktualisierten ihre Cochrane-Übersicht zu Scared Straight und vergleichbaren Programmen zur Verhaltensabschreckung Jugendlicher. Neun randomisierte oder quasi-randomisierte Studien wurden eingeschlossen. Der zentrale Befund: Diese Programme erhöhen die Delinquenzwahrscheinlichkeit gegenüber unbehandelten Kontrollgruppen, statt sie zu senken. Es handelt sich also nicht um ein wirkungsloses, sondern um ein iatrogenes Format.

Der theoretische Rahmen. Iatrogene Effekte in der Jugendprävention sind seit Dishion, McCord und Poulin (1999) systematisch beschrieben. Ihre experimentell kontrollierten Interventionsstudien zeigten, dass das Zusammenführen von Hochrisiko-Jugendlichen in einer Intervention Problemverhalten verstärken kann. „Findings from 2 experimentally controlled intervention studies suggested that peer-group interventions increase adolescent problem behavior and negative life outcomes in adulthood" (Dishion et al., 1999). Werch und Owen (2002) dokumentierten in 17 Studien iatrogene Effekte spezifisch in der Suchtprävention: signifikant negative Effekte oder konsumfördernde Einstellungen, häufig in Teilgruppen wie Hochrisiko-Jugendlichen.

Der Verbleib. Scared-Straight-Programme sind in den USA trotz dreier Cochrane-Updates über 15 Jahre weiterhin in Nutzung; einzelne Bundesstaaten haben sie auf Druck der Forschungslage eingestellt, andere nicht. In Deutschland sind direkte Adaptionen selten; konfrontative Formate (Gefängnis-Besuche, Begegnungen mit Suchtkranken in akuten Phasen) existieren punktuell, in der Regel ohne systematische Evaluation. Die Bundeszentrale für gesundheitliche Aufklärung empfiehlt sie nicht (Bühler, 2009; Bühler, Thrul & Gomes de Matos, 2021); die Empfehlung greift in der Praxis aber, wie bei vielen BZgA-Empfehlungen, nicht durchgängig.

Was diese Vignette lehrt. Wirkungslosigkeit und iatrogene Wirkung sind nicht dasselbe. Ein wirkungsloses Programm verschwendet Lebenszeit; ein iatrogenes Programm schädigt aktiv. In der Norton'schen Klassifikation (Norton et al., 2019) gehört Scared Straight in die Kategorie harmful, und für diese Kategorie ist die ethische Beweislast besonders klar: Schulen, Träger und Geldgeber, die solche Formate fortführen, tun das nicht trotz, sondern in Kenntnis substantieller Negativ-Evidenz.

Die zweistündige Aufklärungs-Stunde in der Mittelstufe

Diese dritte Vignette ist die deutsche. Sie ist weniger plakativ als D.A.R.E. oder Scared Straight – und gerade deshalb instruktiv, weil sie die in deutschen Schulen verbreitete Standardform von Suchtprävention betrifft.

Das Format. Eine externe Fachkraft – Suchtberatung, Polizei, Krankenkasse, Drogenhilfe – kommt für eine Doppelstunde in eine achte oder neunte Klasse. Sie spricht über Wirkstoffe, Risiken, rechtliche Konsequenzen. Manchmal wird ein Quiz durchgeführt, ein Video gezeigt, eine Diskussion moderiert. Das Format ist universell-präventiv (für alle Schülerinnen und Schüler), wissenszentriert und einmalig oder jährlich wiederholt. Es ist kein definiertes Programm mit Manual, sondern eine Form. Genau das macht es typisch.

Die Befundlage. Suchert et al. (2024) führten in den deutschen Bundesländern Hamburg, Schleswig-Holstein, Hessen, Nordrhein-Westfalen und Bremen eine cluster-randomisierte Studie mit n = 2.669 Schülerinnen und Schülern in 55 Schulen durch. Die Intervention war eine zweistündige Aufklärungs-Stunde zur Cannabisprävention, durchgeführt von ausgebildeten Suchtfachkräften in Klassen 8–9. Die Ergebnisse sind differenziert. Wissen über Cannabis stieg signifikant (β = 0,26; p < 0,001), Risikobeliefs stiegen ebenfalls signifikant (β = 0,15; p = 0,006). Aber: Es zeigten sich keine signifikanten Effekte auf Konsumintentionen oder tatsächlichen Konsum. Die Aufklärungs-Stunde wirkt auf den unteren Stufen der Wirkungshierarchie – Wissen, Einstellung – aber nicht auf den entscheidenden oberen Stufen.

Diese Befunde sind kein Einzelfall. Gomes de Matos, Bühler und Thrul (2025) synthetisieren in einem Review von Reviews sechs Metaanalysen zu Cannabisprävention an Schulen. Ihr Befund: Effekte sind „durchgehend klein". Resilienzförderung wirkt in universeller Anwendung bis Klasse 7. Selektive Prävention wirkt ab Klasse 10 in Hochrisikogruppen. Klassen 8–9 zeigen keine generelle Wirksamkeit – also genau jene Klassenstufe, in der die meisten deutschen Aufklärungs-Stunden stattfinden. Bühler, Thrul und Gomes de Matos (2021) hatten in ihrer BZgA-Expertise zur Alkoholprävention bereits formuliert, dass reine Wissensvermittlung nicht empfohlen wird.

Die internationale Einordnung. Die deutsche Befundlage repliziert internationale Evidenz. Tobler et al. (1999) zeigten für non-interaktive Programme „minimal reductions in marijuana use". Faggiano et al. (2014) bestätigten in der Cochrane-Übersicht, dass affektive und wissensorientierte Curricula keine klaren Effekte produzieren, während kompetenzbasierte signifikant wirken. Foxcroft und Tsertsvadze (2012) zeigten für Alkohol, dass nur eine Minderheit der untersuchten Schulinterventionen signifikante Effekte produziert. Kyrrestad, Adolfsen und Fossum (2014) berechneten in ihrer Meta-Analyse von 28 randomisiert kontrollierten Studien einen kleinen, aber signifikanten gepoolten Effekt für kontinuierliche Alkohol-Zielgrößen (Hedges' g = 0,22); bei kategorialen Zielgrößen verschwand der Effekt.

Was diese Vignette nicht behauptet. Diese Befunde verurteilen nicht alle deutschen Suchtpräventionsprogramme. Sie betreffen ein spezifisches, sehr verbreitetes Format: die einmalige oder wenig wiederholte, wissenszentrierte, universell-präventive Aufklärungs-Stunde in der Mittelstufe. Sie behaupten nicht, dass Wissen irrelevant ist; sie zeigen, dass Wissen allein nicht genügt, um Verhalten zu verschieben. Sie beenden auch nicht die Diskussion über mehrstündige, lehrkraft-getragene, programmatisch gerahmte Lebenskompetenz-Curricula. Diese – etwa „Eigenständig werden" mit seinen positiven Effekten auf die Lebenszeitprävalenz des Rauchens (aOR 0,63; 95-%-KI [0,41–0,96]; p = 0,026, Isensee, Hansen, Maruska & Hanewinkel, 2014) – gehören in eine andere empirische Schublade.

Die Konsequenz. Wer die zweistündige Aufklärungs-Stunde in Klasse 8 weiterhin als Suchtprävention führt, sollte explizit die Frage beantworten, welche Wirkungsstufe er adressieren will. Wenn das Ziel Wissensvermittlung ist – Vermittlung der Cannabisrechtslage 2024, der Wirkstoff-Effekte, der Substanz-Risiken – dann ist die Aufklärungs-Stunde ein angemessenes Format und ihre Ergebnisse, wie bei Suchert et al. (2024), stützen die Behauptung. Wenn das Ziel Verhaltens- oder Inzidenz-Effekte sind, dann stützen sie die Behauptung nicht, und das Programm ist für dieses Ziel das falsche Werkzeug.

Die Wirkungshierarchie: was Programme im Mittel erreichen – und wo sie scheitern

Die Befunde der vorigen Kapitel lassen sich in einer Übersicht zusammenfassen. Die folgende Tabelle benennt für sechs Wirkungsstufen, was internationale Meta-Analysen und systematische Reviews dokumentieren.

Wirkungsstufe	Mittlere Befundlage für schulische Suchtprävention	Belegquellen
Wissen	Klare positive Effekte über alle Programmtypen, einschließlich non-interaktiver	Tobler et al., 1999; Suchert et al., 2024
Einstellungen / Risikobeliefs	Positive Effekte, größer für interaktive als für non-interaktive Programme	Faggiano et al., 2014; Suchert et al., 2024
Normwahrnehmung	Korrektur möglich, vor allem bei deutlicher Fehlwahrnehmung der tatsächlichen Norm	Foxcroft & Tsertsvadze, 2012
Konsum-Intention	Inkonsistent; signifikant nur in einem Teil der Studien	Faggiano et al., 2014; Kyrrestad et al., 2014
Tatsächliches Konsumverhalten	Klein, nur bei kompetenzbasierten Programmen mit ausreichender Dosis	Tobler et al., 1999; Faggiano et al., 2014
Inzidenz / Erstkonsum	Begrenzte Datenlage; Effekte vor allem für Lebenskompetenz- und Familienprogramme	Bühler, Thrul & Gomes de Matos, 2021; Isensee et al., 2014

Drei Beobachtungen folgen aus dieser Übersicht.

Erstens ist die Wirkungslücke zwischen Wissen und Verhalten kein Zufallsergebnis, sondern ein robuster Befund. Sie wurde 1997 von Tobler dokumentiert, 2014 von Faggiano in der Cochrane-Übersicht repliziert und 2024 von Suchert et al. im deutschen Kontext wiederholt. Programme, die zentral Wissen vermitteln, vermitteln Wissen. Sie tun nicht mehr.

Zweitens sind die wirksamen Programme keine Geheimnisse. Lebenskompetenz-Programme mit kompetenzbasiertem Curriculum, ausreichender Dosis (in der Regel mehr als zehn Sitzungen), Lehrkraft-Schulung und Programmtreue – etwa Botvins Life Skills Training, Unplugged in der EU-Adaption, in Deutschland „Eigenständig werden" – erreichen kleine bis mittlere Effekte. Bühler, Thrul und Gomes de Matos (2021) empfehlen explizit Familienprogramme, Lebenskompetenz-Ansätze und Kurzinterventionen mit Feedback. Der Punkt ist nicht, dass Suchtprävention generell nicht funktioniert, sondern dass die Form der Suchtprävention den Unterschied macht.

Drittens ist die Wirkungs-Asymmetrie zwischen universellen und selektiven Programmen empirisch klar. Eggert, Thompson und Randell (2001) zeigen für indizierte Programme bei Hochrisiko-Jugendlichen substantielle Effekte, die in universellen Stichproben nicht repliziert werden. Ellickson, Orlando und McCaffrey (2005) zeigen für Project ALERT, dass Effekte für Niedrig- und Mittelrisiko-Jugendliche stärker ausfallen als für Hochrisiko-Jugendliche – also eine Asymmetrie in die andere Richtung. Diese Befunde zu Teilgruppen sind wichtig: De-Implementation darf nicht heißen, indizierte und selektive Angebote für Hochrisiko-Gruppen abzubauen, weil universelle Versionen wirkungslos waren. Die Frage ist nicht „Prävention ja oder nein", sondern „welche Form für welche Zielgruppe in welchem Setting".

De-Implementation als eigene Disziplin

In den vergangenen 15 Jahren ist De-Implementation aus dem Schatten der Implementationswissenschaft getreten und hat eine eigene Forschungs- und Praxis-Disziplin entwickelt. Drei zentrale Arbeiten markieren den Stand.

Niven et al. (2015): Übersichtsarbeit zur De-Adoption. Die Autorinnen werteten 109 Arbeiten zur Beendigung („de-adoption") klinischer Praktiken aus. Sie identifizierten 43 unterschiedliche Begriffe für denselben Vorgang – ein Hinweis auf die konzeptuelle Unreife des Felds. Sie zeigten, dass zwischen 16 und 46 Prozent der untersuchten klinischen Praktiken low-value waren und dass aktive Strategien für De-Adoption wirksamer sind als passive Diffusion. Anders gesagt: Niemand beendet ein Programm, weil eine Studie negativ ausgegangen ist. Beendigung ist eine Implementation; sie braucht eine eigene Strategie.

Norton, Chambers und Kramer (2019): Vier Kategorien. Die Autorinnen schlagen die bereits in der theoretischen Verortung zitierte Klassifikation vor: contradicted, unproven, low-value, harmful. Diese Klassifikation strukturiert die Frage „Welche Programme beenden?" empirisch. Sie verweist außerdem darauf, dass De-Implementation nicht nur Kontroll-Programme betrifft, sondern auch jene, die nie ausreichend geprüft wurden – eine Kategorie, die in der schulischen Prävention den Großteil der real existierenden Programme abdeckt.

Norton und Chambers (2020): Mehrebenen-Komplexität. Die Autorinnen entwickeln den theoretischen Rahmen weiter. Ihre zentrale These: De-Implementation ist nicht das Spiegelbild von Implementation. Sie braucht eigene Mehrebenen-Faktoren, eigene Strategien und eigene Erfolgskriterien – einschließlich der Risiken unbeabsichtigter Folgen. Eine Programmbeendigung kann Personalprobleme erzeugen, alternative Praktiken verdrängen oder symbolische Vakuen produzieren, die durch noch schlechtere Programme gefüllt werden. Diese Risiken sind keine Argumente gegen De-Implementation, sondern Argumente für ihre methodische Vorbereitung.

Prasad und Ioannidis (2014): Evidenzbasierte De-Implementation. Die Autorinnen formulieren eine wegweisende Einsicht: Evidenz allein reicht nicht. Sie zitieren die COURAGE-Studie von 2007, die die Überlegenheit medikamentöser Therapie gegenüber PCI-Stents bei stabiler koronarer Herzkrankheit zeigte. Die PCI-Raten fielen kurzfristig, kehrten aber 2010 auf das Ausgangsniveau zurück. Die Evidenz war veröffentlicht, sie war prominent, sie war von einem hochrangigen Journal getragen – und sie verschwand wieder, weil keine aktive De-Implementation-Strategie folgte. Übersetzt auf Schulen: Die Cochrane-Übersicht von Petrosino et al. (2013) zu Scared Straight ist veröffentlicht, sie ist prominent. Sie greift in der Praxis nur dort, wo Akteure aktiv intervenieren.

Ingvarsson et al. (2022) und Dunsmore et al. (2023): Was tatsächlich wirkt. Ingvarsson, Hasson, von Thiele Schwarz und Kollegen identifizierten in ihrer Übersichtsarbeit 71 Strategien zur De-Implementation. Ihr zentraler Befund: Nur etwa die Hälfte der für gewöhnliche Implementation etablierten Strategien wird tatsächlich auch für das Beenden eingesetzt. Schulungsangebote, Erinnerungssysteme sowie Prüfung mit Rückmeldung dominieren. Aber, so die Autoren: „Education alone is insufficient for successful de-implementation." Dunsmore et al. (2023) bestätigten dies in einem Review von 11 randomisiert kontrollierten Studien zur klinischen De-Implementation. Effektivste Einzelstrategie war eine Entscheidungsunterstützung am Behandlungsort, die im klinischen Verlauf an evidenzbasierte Alternativen erinnert. Einfache Aufklärung wirkte nur in einer von vier Studien. Diese Befunde haben unmittelbare Konsequenzen für die schulische Praxis: Eine BZgA-Empfehlung, eine Cochrane-Übersicht oder ein Magazin-Beitrag wie dieser verändern die Praxis nicht. Aktive Strukturen tun es.

Norton und Kripalani (2024): Fünf Strategien. In ihrer aktuellen Synthese systematisieren Norton und Kripalani fünf Strategien zur De-Implementation: remove (vollständig beenden), replace (durch ein evidenzbasiertes Programm ersetzen), restrict (auf jene Teilgruppen einschränken, für die Wirksamkeit nachgewiesen ist), reduce (Dosis oder Häufigkeit verringern) und repeal (vertragliche oder politische Verpflichtungen rückabwickeln). Diese Differenzierung ist praktisch wertvoll: Nicht jede De-Implementation muss vollständige Entfernung bedeuten. Für ein universell wirkungsloses Programm, das in Hochrisiko-Teilgruppen weiter wirkt, ist restrict die angemessene Strategie. Für ein wirkungsloses Format, das durch ein wirksames ersetzt werden kann, ist replace angemessen. Für vertraglich gebundene Programme braucht es repeal-Schritte parallel zu remove.

Was beim De-Implementing tatsächlich hilft

Aus den theoretischen und empirischen Befunden lässt sich eine empirisch gestützte Praxis-Logik ableiten. Sie ersetzt keine Entscheidung im konkreten Fall; sie strukturiert sie.

Erstens: Die Beweislast umkehren. Solange das Beenden das Erklärungsbedürftige ist, bleibt das Festhalten die Vorgabe. Schulen, Träger und Geldgeber, die diese Vorgabe verschieben wollen, brauchen explizite Strukturen, die Wirksamkeitsbelege regelmäßig einfordern. Vorbild ist die medizinische Choosing-Wisely-Initiative; übertragbare Logik wäre etwa eine kommunale oder schulinterne Routine, die alle externen Programme im Drei- oder Fünf-Jahres-Rhythmus prüft – nicht im Sinne einer formalen Evaluation, sondern im Sinne einer expliziten Frage, ob die Wirksamkeitsbelege noch stichhaltig sind.

Zweitens: Wirkungsindikatoren vorab definieren. Barrett et al. (2023) zeigen, dass uneindeutige Indikatoren die Eskalation begünstigen. Wer ein Programm einführt, ohne vorher festzulegen, wie Erfolg gemessen wird, kann jeden Befund als „uneindeutig" interpretieren. Vorab definierte Indikatoren – auf welcher Wirkungsstufe und in welchem Zeitfenster – verschieben die Diskussion von der nachträglichen Begründung in die strukturierte Bewertung. Die Indikatoren müssen nicht akademisch sein. Eine Schule, die festlegt, dass ein Programm nach drei Jahren mindestens eine messbare Veränderung in der Schülerschaft-Rückmeldung produzieren soll, hat eine Grundlage für Entscheidung. Eine Schule, die diese Festlegung nicht trifft, hat sie nicht.

Drittens: Zwischen Implementations-Problem und Programm-Problem unterscheiden. Durlak und DuPre (2008) und Carroll et al. (2007) liefern den Rahmen. Wenn ein Programm schlechte Ergebnisse zeigt, sollte zuerst die Frage nach der Programmtreue gestellt werden: Wird das Programm überhaupt so durchgeführt, wie es gemeint ist? Wenn ja, ist die Wirksamkeits-Frage offen. Wenn nein, ist die Verbesserungs-Frage offen – und sie ist zeitlich befristet. Eine Verbesserung, die nach einem oder zwei Jahren keine Veränderung produziert, ist faktisch eine Beendigungs-Entscheidung, nur nicht ausgesprochen.

Viertens: Aktive Strategien statt bloßer Information. Ingvarsson et al. (2022) und Dunsmore et al. (2023) sind eindeutig: Information, Empfehlungen und Übersichten reichen nicht. Was wirkt, sind aktive Strategien – Prüfung mit Rückmeldung, Entscheidungsunterstützung an der Praxis-Schnittstelle, Vergleich mit ähnlichen Einrichtungen, Interventionen mit mehreren ineinandergreifenden Komponenten. Übersetzt auf Schulen: Eine Liste empfohlener Programme auf einer Bundes- oder Landes-Webseite verändert die Praxis nicht. Eine kommunale Stelle, die Schulen aktiv begleitet, Programmprüfungen moderiert und Alternativen vorschlägt, tut es. Aarons, Ehrhart, Farahnak und Hurlburt (2014) zeigen die Bedeutung von Führung in diesen Prozessen: Eine an evidenzbasierter Praxis ausgerichtete Führungskultur über mehrere Verwaltungsebenen hinweg ist eine notwendige, wenn auch nicht hinreichende Bedingung für Programmbeendigungen, die dauerhaft Bestand haben.

Fünftens: Ersetzen statt streichen, wo möglich. Eine Programmbeendigung ohne Ersatz ist symbolisch riskant und institutionell instabil. Die deutsche Präventionslandschaft hat verfügbare Alternativen: Lebenskompetenz-Programme („Eigenständig werden", „Klasse2000" für die Grundschule, „" auf kommunaler Ebene), evidenzbasierte Selektiv-Angebote, Familienprogramme. Eine Schule, die eine einmalige Aufklärungs-Stunde durch ein mehrstündiges, lehrkraft-getragenes Lebenskompetenz-Curriculum ersetzt, signalisiert nach außen keine Leerstelle, sondern eine Ablösung. Diese Logik der Ablösung ist die wichtigste praktische Konsequenz der Norton-Kripalani-Klassifikation.

Sechstens: Den Zeitpunkt sauber wählen. Wiltsey Stirman et al. (2012) und Shelton, Cooper und Wiltsey Stirman (2018) zeigen für die Verstetigung von Programmen, dass Übergänge krisenanfällig sind. Programmbeendigungen mitten im Schuljahr, ohne Vorbereitung der Lehrkräfte und Schülerschaft, ohne Kommunikation an Eltern und Träger, scheitern selbst dann, wenn ihr inhaltlicher Grund stark ist. Ein Vorlauf von zwölf Monaten, eine explizite Begründung gegenüber allen Beteiligten und eine Kommunikations-Strategie, die das Beenden als Lernprozess der Schule rahmt, sind kein Beiwerk; sie sind Teil der De-Implementation.

Siebtens: Die ethische Frage stellen. Das ist der wichtigste Punkt. Die Eskalation der Verpflichtung lebt davon, dass Beendigung erklärungsbedürftig erscheint. Die ethische Beweislast liegt aber – wenn man sie ernst nimmt – umgekehrt: Eine Schulstunde in einem unwirksamen oder iatrogenen Programm ist eine Stunde, die nicht für ein wirksames Format zur Verfügung steht. Bei harmful-Programmen gilt diese Logik mit besonderer Schärfe; bei unproven-Programmen mit moderater. Diese Frage muss nicht in jeder Diskussion explizit gemacht werden, aber sie ist der ethische Anker, der die De-Implementation als Sorgfaltspflicht begreifbar macht und nicht als Verwaltungsoption.

Übertragbarkeit auf den deutschsprachigen Raum

Die Befunde von Barrett et al. (2023) stammen aus einem US-Bundesstaat, mit n = 24 Schulleitungen, in einem qualitativen Design. Die Frage der Übertragbarkeit auf den deutschsprachigen Raum ist nicht trivial.

Strukturelle Unterschiede. US-Schulleitungen verfügen über andere Entscheidungsspielräume als deutsche. In den USA sind Programmadoptionen häufig auf Distrikt- oder Schul-Ebene angesiedelt; Budgets, Curricula und externe Anbieter können stärker durch die Einzelschule bestimmt werden. In Deutschland sind viele dieser Entscheidungen auf Landes-, Träger- oder kommunaler Ebene angesiedelt. Bildungsplan-Vorgaben, Beschaffungs-Regeln öffentlicher Träger, Förderlogiken nach § 20a SGB V und Mehrebenen-Zuständigkeiten verschieben das Entscheidungsspiel. Eine deutsche Schulleitung kann ein externes Programm nicht ohne Weiteres beenden, wenn der Träger, der Förderverein oder die kommunale Steuerungsgruppe es beschlossen hat. Das macht die psychologische Schicht der Eskalation kleiner und die externe Schicht größer.

Die deutsche Programmlandschaft. Anders als in den USA gibt es in Deutschland keine D.A.R.E.-vergleichbare landesweite Großintervention. Stattdessen existiert eine fragmentierte Landschaft: BZgA-Materialien, Klasse2000 (Grundschule, n = 1,4 Millionen Kinder über 25 Jahre, derzeit in Evaluation per Propensity-Score-Matching, Kliem, Krieg, Lohmann & Baier, 2020), „Eigenständig werden" (Sekundarstufe I, n = 3.444 in einer cluster-randomisierten Studie mit positiven Effekten auf Lebenszeitprävalenz und Inzidenz des Rauchens, Hansen, Hanewinkel, Maruska & Isensee, 2011; Isensee et al., 2014), „Communities That Care" (kommunale Ebene), polizeiliche Präventionsbesuche, Theaterstücke, externe Aufklärungs-Stunden. Die Verbreitung der einzelnen Programme ist sehr unterschiedlich; die Wirksamkeitsbelege sind es auch.

Lehren aus FENIQS-EU. Jerković, Nováková, Belošević, Ferić und Serdar (2023) und Serdar, Ferić, Belošević, Jerković und Nováková (2024) haben für das EU-FENIQS-Projekt erhoben, wie Qualitätsstandards (insbesondere die EDPQS) in den Mitgliedstaaten implementiert sind. Befund: Standards sind weit bekannt, ihre tatsächliche Anwendung in der Praxis ist es nicht. Hindernisse sind Finanzierung, mangelndes Bewusstsein für Evaluation, Fachkompetenz – also genau jene Mehrebenen-Faktoren, die De-Implementation auch in entgegengesetzter Richtung erschweren. Graf und Stöver (2019) zeigen für Deutschland im Speziellen: Standards existieren, sie werden nicht genutzt.

Communities That Care als Lehrstück für Adaption. Steketee et al. (2013) verglichen die US-amerikanische Einführung von Communities That Care (12 Kommunen, randomisiert kontrolliert) mit der niederländischen (fünf Stadtteile). Sie identifizieren als wichtigsten Adaptations-Hindernis die kurze Liste niederländisch-erprobter Programme. Eine evidenzbasierte Adaption setzt voraus, dass im Zielland ausreichend wirksame Programme verfügbar sind, die ersetzen können, was beendet wird. Für Deutschland gilt das in abgeschwächter Form: „Eigenständig werden", „Communities That Care" mit Adaption durch das Communities-That-Care-Schulungszentrum, Klasse2000 und einige Lebenskompetenz-Curricula stehen bereit, aber sie decken nicht das gesamte Setting-Spektrum.

Was Migration und kulturelle Adaption ergänzen. Castro, Barrera und Holleran Steiker (2011) entwickeln für Adaptions-Strategien einen Vier-Wege-Rahmen: Prevention Research Cycle, kulturelle Adaption etablierter Programme, culturally-grounded approaches, indigenous community-initiated. Die Spannung zwischen Fidelity (Programmtreue) und Fit (kulturelle Passung) ist nach Castro et al. (2011) ein zentraler Treiber von De-Implementation: Programme werden beendet, weil sie kulturell nicht passen, oder modifiziert, bis sie ihre Wirksamkeitsgrundlage verlieren. Für deutsche Schulen mit hohem Migrationsanteil ist das praktisch relevant: Universelle Programme in homogen kulturell-deutschen Kontexten waren möglicherweise nie für die heutige Schülerschaft wirksam; sie funktionieren aber im Stundenplan weiter. Diese stille Drift zwischen Programm und Adressaten ist eine Form von De-facto-Wirkungslosigkeit, die in Wirkungsindikatoren oft nicht sichtbar wird.

Kostenfrage. Crowley et al. (2018) und Aos und Lee (2011) haben für die Society for Prevention Research und das methodische Standards für die ökonomische Evaluation von Prävention etabliert. Ihre Logik: Programme ohne nachweisbaren positiven Effekt oder mit Wirkung zu hohem Preis sollten beendet werden, damit die freiwerdenden Mittel in nachweislich wirksame Alternativen fließen können. Im deutschen Kontext ist diese Logik kaum institutionalisiert. Schulen und Träger entscheiden selten auf der Grundlage von Kosten-Wirkungs-Kennzahlen; sie entscheiden auf der Grundlage von Verfügbarkeit, Tradition und Beziehung. Das ökonomische Argument ist daher in Deutschland eines, das sich erst entwickelt.

Vergleichstabelle: acht Programmtypen im Überblick

Die folgende Tabelle systematisiert Programmtypen nach Evidenzstand, Verbreitung im deutschsprachigen Raum und empfohlener De-Implementation-Strategie nach Norton und Kripalani (2024). Sie ist eine Zusammenfassung der in den vorigen Kapiteln zitierten Belege.

Programmtyp	Evidenzstand	Verbreitung DACH	Norton'sche Kategorie	Empfohlene Strategie
Polizeiliche Präventionsbesuche (einmalig)	Wenig DE-Empirie; international: D.A.R.E.-Logik, Effekte minimal (West & O'Neal, 2004)	hoch	unproven	restrict / replace
Konfrontative Abschreckung (Scared Straight, Gefängnis-Besuche)	Iatrogen (Petrosino et al., 2013)	gering	harmful	remove
Zweistündige Wissens-Stunde Mittelstufe	Effekte auf Wissen, keine auf Verhalten (Suchert et al., 2024; Tobler et al., 1999)	hoch	low-value (für Verhalten); legitim für Wissen	restrict / reduce / replace
Affektive Pädagogik (Selbstwert-Übungen, Theater)	Effekte minimal (Faggiano et al., 2014; Tobler et al., 1999)	mittel	unproven / low-value	replace
Lebenskompetenz-Programme (mehrstündig, lehrkraftgetragen)	Klein bis mittel positiv (Faggiano et al., 2014; Isensee et al., 2014)	mittel	proven	sustain / scale
Soziale-Norm-Programme	Wirksam auf Normwahrnehmung, schwach auf Verhalten; spezifisch bei deutlicher Fehlwahrnehmung der Norm (Foxcroft & Tsertsvadze, 2012)	gering	partially proven	restrict
Familien-Programme	Klein bis mittel positiv über mehrere Reviews (Bühler, Thrul & Gomes de Matos, 2021)	gering	proven	scale
Selektiv-/Indikativ-Programme (Hochrisiko)	Wirksam für Teilgruppen (Eggert et al., 2001; Ellickson et al., 2005)	mittel	proven für Teilgruppen	sustain / scale

Drei Erläuterungen zur Tabelle.

Die Spalte „Evidenzstand" referiert auf den im Beitrag zitierten Stand systematischer Übersichten und Meta-Analysen. Sie ist nicht repräsentativ für jede Einzelstudie, sondern für die mittlere Befundlage. Einzelne Programme einer Kategorie können von dieser Bilanz abweichen.

Die Spalte „Verbreitung DACH" ist eine fachliche Schätzung auf Basis der Literatur und der Bestandsaufnahmen von Bühler, Thrul und Gomes de Matos (2021) sowie Graf und Stöver (2019). Es gibt keine systematische deutsche Erhebung der Programm-Verbreitung in Schulen; die Schätzung ist daher ungenau.

Die Spalte „Empfohlene Strategie" verwendet die Norton-Kripalani-Taxonomie (remove, replace, restrict, reduce, repeal) ergänzt um sustain (laufendes Programm fortführen) und scale (gezielt verbreiten). Die Empfehlung ist nicht universal, sondern kontext-abhängig. Eine Programm-Beendigung in einer konkreten Schule muss die lokalen Indikatoren, Beteiligten und Alternativen berücksichtigen.

Synthese

Die Befundlage erlaubt eine kompakte Synthese.

Die Frage „Warum halten Schulen an wirkungslosen Programmen fest?" hat keine einzelne Antwort. Sie hat drei Antworten, die sich ergänzen. Auf der psychologischen Ebene wirken Sunk-Cost-Verzerrung, Selbstrechtfertigung und Status-quo-Bias zusammen, um Beendigungs-Entscheidungen kognitiv und emotional zu verteuern. Auf der organisationalen Ebene erzeugen Programmtradition, Druck der Beteiligten, Reform-Müdigkeit und eine schwach an evidenzbasierter Praxis ausgerichtete Führungskultur ein Klima, in dem Beendigungen als Schwäche erscheinen statt als Stärke. Auf der externen Ebene halten Geldgeber-Verpflichtungen, politisch-normative Vorgaben und mediale Sichtbarkeit Programme im Lauf, die ohne diese externen Kräfte längst beendet wären.

Die Frage „Was hilft beim Beenden?" hat ebenfalls keine einzelne Antwort. Die Implementations- und De-Implementations-Wissenschaft hat aber eine Reihe von Bausteinen identifiziert, deren Kombination wirkt: explizite Wirkungsindikatoren vor Programm-Einführung, regelmäßige Wirksamkeitsprüfungen, Differenzierung zwischen Umsetzungs- und Programmproblemen, aktive Strategien statt bloßer Information, Ablösung statt bloßer Beendigung, sauber gewählter Zeitpunkt, ethisch verankerte Argumentation. Keiner dieser Bausteine ist neu. Was neu ist, ist die wachsende empirische Sicherheit, dass die Kombination wirkt und dass die Abwesenheit der Kombination nicht wirkt.

Die Frage „Was ist mit deutschen Schulen?" hat schließlich eine spezifische Antwort. Die deutsche Präventionslandschaft hat verfügbare wirksame Programme, vor allem im Lebenskompetenz- und Familien-Bereich. Sie hat verfügbare Qualitätsstandards (EDPQS, EUPC). Sie hat dokumentierte Wirkungslücken bei verbreiteten Format-Typen, etwa der zweistündigen Wissens-Stunde in der Mittelstufe. Was sie systematisch nicht hat, sind aktive Strukturen, die Schulen beim Beenden begleiten. Ohne solche Strukturen bleiben Empfehlungen Empfehlungen.

Eine letzte Synthese-Bemerkung: Die Eskalation der Verpflichtung ist kein moralisches Problem. Sie ist eine Eigenschaft komplexer Systeme, in denen viele Akteure mit eigenen Logiken interagieren. Wer sie als individuelles Versagen rahmt – „die Schulleitung will nicht beenden", „die Lehrkraft hängt am Programm" – verkennt die Architektur. Wer sie als systemisches Phänomen rahmt, kann an der Architektur arbeiten. Die Forschung der letzten zehn Jahre legt nahe, dass diese Architektur veränderbar ist, wenn die richtigen Hebel kombiniert werden.

Limitationen dieses Beitrags

Drei Limitationen sind explizit zu benennen.

Erstens stützt sich die zentrale These auf eine qualitative Studie mit n = 24 Schulleitungen in einem US-Bundesstaat. Barrett et al. (2023) markieren diese Limitation selbst. Die Übertragbarkeit auf deutsche Verhältnisse ist plausibel, aber empirisch nicht geprüft. Eine deutsche Replikations-Studie wäre wünschenswert; sie liegt nicht vor.

Zweitens ist die Kategorisierung der Programmtypen in den Vignetten und in der Vergleichstabelle vergröbernd. Innerhalb jeder Kategorie existieren Programme mit unterschiedlicher Wirksamkeitsbilanz; die Bilanz einer Kategorie ist eine mittlere Bilanz, keine universelle Aussage. Die Vergleichstabelle ist eine Orientierungshilfe, keine Programmprüfung im engeren Sinne. Eine fundierte Beendigungs-Entscheidung in einer konkreten Schule erfordert mehr Information als diese Tabelle bereitstellen kann.

Drittens sind die Empfehlungen in den Abschnitten zur De-Implementation weitgehend deduktiv aus internationaler Implementations-Forschung abgeleitet. Sie sind nicht in deutschen Schulen selbst experimentell überprüft. Wir wissen aus Choosing-Wisely-Erfahrungen in der medizinischen Versorgung (Norton & Kripalani, 2024), dass aktive Strategien wirken; ob die spezifische Übertragung auf deutsche Schulen mit ihrer Mehrebenen-Verfasstheit dieselben Effekte produziert, ist eine empirische Frage, die noch zu beantworten wäre.

Diese Limitationen sind keine Argumente gegen die im Beitrag vorgestellten Befunde. Sie sind Argumente für ihre vorsichtige, kontext-sensible Anwendung.

Schluss

Die Forschung der vergangenen Jahre hat das Bild geschärft, das die Implementationswissenschaft von Schulen zeichnet. Es ist kein Bild der Trägheit oder der Unwilligkeit. Es ist das Bild eines komplexen Systems, in dem psychologische, organisationale und externe Kräfte zusammenwirken und Beendigungs-Entscheidungen systematisch erschweren. Die Frage, warum Schulen an wirkungslosen Programmen festhalten, lässt sich nicht von einzelnen Personen aus beantworten. Sie lässt sich nur von der Architektur der Entscheidung aus beantworten.

Die ethische Konsequenz liegt nicht in der Beschuldigung. Sie liegt in der Anerkennung, dass jede Schulstunde, die in einem unwirksamen oder iatrogenen Programm verbracht wird, eine Stunde ist, die der Schülerschaft nicht für ein wirksames Format zur Verfügung steht. Diese Opportunitätskosten sind nicht abstrakt. Sie sind Lebenszeit von Kindern und Jugendlichen. Bei unproven-Programmen ist diese Logik moderat verbindlich, bei low-value-Programmen klar verbindlich, bei harmful-Programmen nicht verhandelbar. Schulen, Träger und öffentliche Geldgeber, die diese Differenzierung anerkennen, können ihre Praxis verändern. Die Forschung sagt: Es ist möglich. Sie sagt nicht: Es ist einfach.

Bleibt eine Frage offen, die der Beitrag nicht abschließend beantwortet hat: Wer trägt im deutschen System die Verantwortung dafür, dass De-Implementation in der Fläche möglich wird? Schulen allein können sie nicht tragen. Träger allein nicht. Geldgeber allein nicht. Die Antwort liegt vermutlich in der Zusammenarbeit zwischen den Ebenen – im Sinne dessen, was Aarons et al. (2014) „aligning leadership across systems and organizations" nennen. Diese Aufgabe ist nicht abgeschlossen. Sie hat begonnen.

Literatur

Aarons, G. A., Ehrhart, M. G., Farahnak, L. R., & Hurlburt, M. S. (2014). Aligning leadership across systems and organizations to develop a strategic climate for evidence-based practice implementation. Annual Review of Public Health, 35, 255–274. https://doi.org/10.1146/annurev-publhealth-032013-182447

Aos, S., & Lee, S. (2011). Using cost-benefit analysis to understand the value of social interventions. Research on Social Work Practice, 21(6), 682–688. https://doi.org/10.1177/1049731511410551

Arkes, H. R., & Blumer, C. (1985). The psychology of sunk cost. Organizational Behavior and Human Decision Processes, 35(1), 124–140. https://doi.org/10.1016/0749-5978(85)90049-4

Barrett, C. A., Sleesman, D. J., & Spear, S. E. (2023). Sticking with programs that do not work: The role of escalation of commitment in schools. Prevention Science, 24(3), 567–576. https://doi.org/10.1007/s11121-023-01510-8

Brockner, J. (1992). The escalation of commitment to a failing course of action: Toward theoretical progress. Academy of Management Review, 17(1), 39–61. https://doi.org/10.5465/amr.1992.4279568

Bühler, A. (2009). Was wirkt in der Suchtprävention? Deutsche Medizinische Wochenschrift, 134(47), 2388–2391. https://doi.org/10.1055/s-0029-1242699

Bühler, A., Thrul, J., & Gomes de Matos, E. (2021). Evidenzbasierte Alkoholprävention – Was empfiehlt die Wirksamkeitsforschung? Bundesgesundheitsblatt – Gesundheitsforschung – Gesundheitsschutz, 64. https://doi.org/10.1007/s00103-021-03342-9

Carroll, C., Patterson, M., Wood, S., Booth, A., Rick, J., & Balain, S. (2007). A conceptual framework for implementation fidelity. Implementation Science, 2, 40. https://doi.org/10.1186/1748-5908-2-40

Castro, F. G., Barrera, M., & Holleran Steiker, L. K. (2011). A critical analysis of approaches to the development of preventive interventions for subcultural groups. American Journal of Community Psychology, 48(3-4), 439–454. https://doi.org/10.1007/s10464-010-9422-x

Crowley, D. M., Dodge, K. A., Barnett, W. S., Corso, P., Duffy, S., Graham, P., Greenberg, M., Haskins, R., Hill, L., Jones, D. E., Karoly, L. A., Kuklinski, M. R., & Plotnick, R. (2018). Standards of evidence for conducting and reporting economic evaluations in prevention science. Prevention Science, 19(3), 366–390. https://doi.org/10.1007/s11121-017-0858-1

Damschroder, L. J., Aron, D. C., Keith, R. E., Kirsh, S. R., Alexander, J. A., & Lowery, J. C. (2009). Fostering implementation of health services research findings into practice: A consolidated framework for advancing implementation science. Implementation Science, 4, 50. https://doi.org/10.1186/1748-5908-4-50

Dishion, T. J., McCord, J., & Poulin, F. (1999). When interventions harm: Peer groups and problem behavior. American Psychologist, 54(9), 755–764. https://doi.org/10.1037/0003-066x.54.9.755

Dunsmore, J., Duncan, E., MacLennan, S., Bell, V., Treweek, S., Iorio, A., & Dimitratos, P. (2023). Effectiveness of de-implementation strategies for low-value prescribing in secondary care: A systematic review. Implementation Science Communications, 4, 1. https://doi.org/10.1186/s43058-023-00498-0

Durlak, J. A., & DuPre, E. P. (2008). Implementation matters: A review of research on the influence of implementation on program outcomes and the factors affecting implementation. American Journal of Community Psychology, 41(3-4), 327–350. https://doi.org/10.1007/s10464-008-9165-0

Eggert, L. L., Thompson, E. A., & Randell, B. P. (2001). Evaluation of indicated suicide risk prevention approaches for potential high school dropouts. American Journal of Public Health, 91(5), 742–752. https://doi.org/10.2105/ajph.91.5.742

Ellickson, P. L., Orlando, M., & McCaffrey, D. F. (2005). Mediation analysis of a school-based drug prevention program: Effects of Project ALERT. Prevention Science, 6(1), 35–46. https://doi.org/10.1007/s11121-005-1251-z

Ennett, S. T., Tobler, N. S., Ringwalt, C. L., & Flewelling, R. L. (1994). How effective is drug abuse resistance education? A meta-analysis of Project DARE outcome evaluations. American Journal of Public Health, 84(9), 1394–1401. https://doi.org/10.2105/ajph.84.9.1394

Faggiano, F., Minozzi, S., Versino, E., & Buscemi, D. (2014). Universal school-based prevention for illicit drug use. Cochrane Database of Systematic Reviews, 12, CD003020. https://doi.org/10.1002/14651858.cd003020.pub3

Foxcroft, D. R., & Tsertsvadze, A. (2012). Universal alcohol misuse prevention programmes for children and adolescents: Cochrane systematic reviews. Perspectives in Public Health, 132(3), 128–134. https://doi.org/10.1177/1757913912443487

Gomes de Matos, E., Bühler, A., & Thrul, J. (2025). Ist Cannabisprävention an Schulen wirksam, und wann? – Ein Review of Reviews. Suchttherapie, 26(2), 69–76. https://doi.org/10.1055/a-2563-3317

Graf, N., & Stöver, H. (2019). Critical reflections on quality standards within drug demand reduction. Drugs and Alcohol Today, 19(3), 182–188. https://doi.org/10.1108/DAT-12-2018-0070

Hansen, J., Hanewinkel, R., Maruska, K., & Isensee, B. (2011). The 'Eigenständig werden' prevention trial: A cluster randomised controlled study on a school-based life skills programme to prevent substance use onset. BMJ Open, 1(2), e000352. https://doi.org/10.1136/bmjopen-2011-000352

Ingvarsson, S., Hasson, H., von Thiele Schwarz, U., Nilsen, P., Lindberg, M. H., Augustsson, H., & Sandaker, I. (2022). Strategies for de-implementation of low-value care – A scoping review. Implementation Science, 17, 73. https://doi.org/10.1186/s13012-022-01247-y

Isensee, B., Hansen, J., Maruska, K., & Hanewinkel, R. (2014). Effects of a school-based prevention programme on smoking in early adolescence: A 6-month follow-up of the 'Eigenständig werden' cluster randomised trial. BMJ Open, 4(1), e004422. https://doi.org/10.1136/bmjopen-2013-004422

Jerković, D., Nováková, E., Belošević, M., Ferić, M., & Serdar, K. (2023). Implementation of quality standards in drug demand reduction: Preliminary findings from the FENIQS-EU project. Adiktologie, 23(2), 123–134. https://doi.org/10.35198/01-2023-002-0009

Kliem, S., Krieg, Y., Lohmann, A., & Baier, D. (2020). Evaluation of the universal prevention program Klasse2000 in fourth grade primary school children: Protocol for a propensity score-matching approach. JMIR Research Protocols, 9(8), e14371. https://doi.org/10.2196/14371

Kyrrestad, H., Adolfsen, F., & Fossum, S. (2014). Effectiveness of school-based preventive interventions on adolescent alcohol use: A meta-analysis of randomized controlled trials. Substance Abuse Treatment, Prevention, and Policy, 9, 48. https://doi.org/10.1186/1747-597x-9-48

Lynam, D. R., Milich, R., Zimmerman, R., Novak, S. P., Logan, T. K., Martin, C., Leukefeld, C., & Clayton, R. (1999). Project DARE: No effects at 10-year follow-up. Journal of Consulting and Clinical Psychology, 67(4), 590–593. https://doi.org/10.1037/0022-006X.67.4.590

Niven, D. J., Mrklas, K. J., Holodinsky, J. K., Straus, S. E., Hemmelgarn, B. R., Jackson, L. P., & Stelfox, H. T. (2015). Towards understanding the de-adoption of low-value clinical practices: A scoping review. BMC Medicine, 13, 255. https://doi.org/10.1186/s12916-015-0488-z

Norton, W. E., & Chambers, D. A. (2020). Unpacking the complexities of de-implementing inappropriate health interventions. Implementation Science, 15(1), 2. https://doi.org/10.1186/s13012-019-0960-9

Norton, W. E., Chambers, D. A., & Kramer, B. S. (2019). Conceptualizing de-implementation in cancer care delivery. Journal of Clinical Oncology, 37(2), 93–96. https://doi.org/10.1200/JCO.18.00589

Norton, W. E., & Kripalani, S. (2024). Methodological progress note: De-implementation of low-value care. Journal of Hospital Medicine, 19(1), 57–61. https://doi.org/10.1002/jhm.13257

Petrosino, A., Turpin-Petrosino, C., Hollis-Peel, M. E., & Lavenberg, J. G. (2013). 'Scared Straight' and other juvenile awareness programs for preventing juvenile delinquency. Cochrane Database of Systematic Reviews, 4, CD002796. https://doi.org/10.1002/14651858.CD002796.pub2

Prasad, V., & Ioannidis, J. P. A. (2014). Evidence-based de-implementation for contradicted, unproven, and aspiring healthcare practices. Implementation Science, 9, 1. https://doi.org/10.1186/1748-5908-9-1

Samuelson, W., & Zeckhauser, R. (1988). Status quo bias in decision making. Journal of Risk and Uncertainty, 1(1), 7–59. https://doi.org/10.1007/BF00055564

Scheirer, M. A. (2005). Is sustainability possible? A review and commentary on empirical studies of program sustainability. American Journal of Evaluation, 26(3), 320–347. https://doi.org/10.1177/1098214005278752

Serdar, K., Ferić, M., Belošević, M., Jerković, D., & Nováková, E. (2024). Implementation of quality standards in drug demand reduction: Insights from FENIQS-EU project and ways forward. Adicciones, 36(4), 359–370. https://doi.org/10.20882/adicciones.1891

Shelton, R. C., Cooper, B. R., & Wiltsey Stirman, S. (2018). The sustainability of evidence-based interventions and practices in public health and health care. Annual Review of Public Health, 39, 55–76. https://doi.org/10.1146/annurev-publhealth-040617-014731

Sleesman, D. J., Conlon, D. E., McNamara, G., & Miles, J. E. (2012). Cleaning up the big muddy: A meta-analytic review of the determinants of escalation of commitment. Academy of Management Journal, 55(3), 541–562. https://doi.org/10.5465/amj.2010.0696

Sleesman, D. J., Lennard, A. C., McNamara, G., & Conlon, D. E. (2018). Putting escalation of commitment in context: A multilevel review and analysis. Academy of Management Annals, 12(1), 178–207. https://doi.org/10.5465/annals.2016.0046

Staw, B. M. (1976). Knee-deep in the big muddy: A study of escalating commitment to a chosen course of action. Organizational Behavior and Human Performance, 16(1), 27–44. https://doi.org/10.1016/0030-5073(76)90005-2

Steketee, M., Oesterle, S., Jonkman, H., Hawkins, J. D., Haggerty, K. P., & Aussems, C. (2013). Transforming prevention systems in the United States and the Netherlands using Communities That Care. European Journal on Criminal Policy and Research, 19(2), 99–116. https://doi.org/10.1007/s10610-012-9194-y

Suchert, V., Isensee, B., Goecke, M., Hanewinkel, R., et al. (2024). Cannabisprävention in der Schule: Ergebnisse einer cluster-randomisierten Studie. Fortschritte der Neurologie · Psychiatrie, 92(9), 347–354. https://doi.org/10.1055/a-2364-3055

Tobler, N. S., Lessard, T., Marshall, D., Ochshorn, P., & Roona, M. (1999). Effectiveness of school-based drug prevention programs for marijuana use. School Psychology International, 20(1), 105–137. https://doi.org/10.1177/0143034399201008

Werch, C. E., & Owen, D. M. (2002). Iatrogenic effects of alcohol and drug prevention programs. Journal of Studies on Alcohol, 63(5), 581–590. https://doi.org/10.15288/jsa.2002.63.581

West, S. L., & O'Neal, K. K. (2004). Project D.A.R.E. outcome effectiveness revisited. American Journal of Public Health, 94(6), 1027–1029. https://doi.org/10.2105/AJPH.94.6.1027

Whyte, G. (1991). Diffusion of responsibility: Effects on the escalation tendency. Journal of Applied Psychology, 76(3), 408–415. https://doi.org/10.1037/0021-9010.76.3.408

Wiltsey Stirman, S., Kimberly, J., Cook, N., Calloway, A., Castro, F., & Charns, M. (2012). The sustainability of new programs and innovations: A review of the empirical literature and recommendations for future research. Implementation Science, 7, 17. https://doi.org/10.1186/1748-5908-7-17

Anhang: Quellenrecherche und Verifikation

Alle in diesem Beitrag zitierten Studien wurden über das Scite-MCP (Scite Smart Citations) verifiziert. Verifiziert wurden: DOI, Metadaten (Titel, Autorenschaft, Erscheinungsjahr, Journal, Volume, Issue, Seiten), Editorial Notices (Retractions, Errata, Concerns), Open-Access-Status sowie für zentrale Quellen Smart-Citation-Snippets als Beleg-Material.

Editorial Notices. Keine der zitierten Quellen weist Retractions, Errata oder Editorial Concerns auf (Stand 2026-04-28).

Vorgehen der Recherche. Die Quellen wurden in zwei Wellen erhoben. Welle 1 umfasste: De-Implementation und Verstetigung (Norton, Chambers, Niven, Prasad, Ioannidis, Wiltsey Stirman, Scheirer, Shelton), kognitive Verzerrungen (Staw, Arkes, Brockner, Sleesman, Samuelson), Implementations-Theorie und Führungskultur (Damschroder, Aarons), iatrogene Programme (West, O'Neal, Lynam, Petrosino), deutsche Empirie (Hanewinkel, Hansen, Isensee, Kliem, Graf, Stöver) und internationale Adaption (Castro, Steketee, Jerković, Serdar). Welle 2 vertiefte: Meta-Analysen schulischer Suchtprävention (Tobler, Faggiano, Foxcroft, Kyrrestad, Bühler, Gomes de Matos), Programmtreue und Umsetzungsqualität (Durlak, DuPre, Carroll), iatrogene Effekte (Werch, Owen, Dishion, Ennett), ökonomische Evaluation (Aos, Lee, Crowley), Strategien der De-Implementation (Ingvarsson, Dunsmore, Norton, Kripalani), Effekte auf Teilgruppen (Eggert, Ellickson) sowie deutsche cluster-randomisierte Studien (Suchert).

Auswahlkriterien. Bevorzugt wurden begutachtete systematische Übersichten, Meta-Analysen, Cochrane-Reviews und cluster-randomisierte Studien. Graue Literatur (BZgA-Berichte, WSIPP-Memoranden, SAMHSA-Berichte) ist im Beitrag nicht primär zitiert; sie liegt außerhalb des über Scite verifizierbaren Bereichs. Zentrale Konzepte wurden auf Original-Quellen zurückgeführt: Staw (1976) für die Eskalation der Verpflichtung, Arkes und Blumer (1985) für den Sunk-Cost-Effekt, Brockner (1992) für die theoretische Synthese, Tobler et al. (1999) für die Programm-Typologie.

Lücken und Vorbehalte. Einzelne Programme aus der deutschen Trägerlandschaft (etwa „Klar bleiben", „Stark statt breit", Polizei-Präventionsbesuche) verfügen nicht über begutachtete Wirksamkeitsstudien, die über Scite recherchierbar wären. Der Beitrag nennt diese Formate nicht namentlich und vermeidet Behauptungen über ihre Wirksamkeit. Wo deutsche Empirie verfügbar war (Suchert et al., 2024; Gomes de Matos et al., 2025), wird sie zitiert. Diese Lücken berühren die zentralen Argumente des Beitrags nicht.