Gold-Plating-Analyse ist kein Prompt — sondern ein Engineering-Problem

Veröffentlicht 16 Mar 2026 · 5 min read

Über Gold-Plating wird wieder viel gesprochen. Die Bundesregierung, der Normenkontrollrat, Wirtschaftsverbände. Alle sind sich einig, dass die Übererfüllung von EU-Richtlinien im nationalen Recht für Unternehmen reale Lasten erzeugen kann. Der zusätzliche Erfüllungsaufwand aus Richtlinienumsetzungen wurde in der Berichterstattung des Normenkontrollrats für 2024 grob mit rund einer Milliarde Euro beziffert.

Aber hinter dem Schlagwort steht eine viel unangenehmere Frage:

Wie findet man das eigentlich?

Gold-Plating zu identifizieren heißt nicht, zwei Texte nebeneinanderzulegen. Man muss die normative Absicht einer EU-Richtlinie, oft bewusst offen formuliert und mit erheblichem Umsetzungsspielraum für die Mitgliedstaaten, gegen die konkreten Entscheidungen eines nationalen Gesetzgebers lesen. Manche dieser Entscheidungen sind legitim. Manche sind politisch gewollte Zusätze. Manche stammen aus bereits vorhandenem nationalem Recht, das nie harmonisiert wurde. Und manches ist tatsächlich unnötige Überregulierung.

Diese Fälle auseinanderzuhalten ist die eigentliche Schwierigkeit.

Warum naive KI-Ansätze scheitern

Die Versuchung ist offensichtlich: Man gibt einem LLM die Richtlinie und das Umsetzungsgesetz, fragt, wo das nationale Recht über die EU-Vorgaben hinausgeht, und veröffentlicht das Ergebnis.

Genau das scheitert auf vorhersehbare Weise.

Halluzinierte Abweichungen. Große Sprachmodelle sind Mustervervollständigungsmaschinen. Wenn man ihnen zwei lange Rechtstexte gibt und Unterschiede verlangt, liefern sie Unterschiede, egal ob diese analytisch tragfähig sind oder nicht. In der Regulierungsanalyse ist ein Fehlalarm nicht harmlos. Er kann als scheinbar belastbarer Befund in die politische Debatte wandern.

Strukturelle Asymmetrie. Richtlinien und nationale Umsetzungsgesetze sind selten parallel aufgebaut. Eine Richtlinie kann einen Punkt in einem Artikel anlegen und in einem Erwägungsgrund präzisieren, während das nationale Recht denselben Sachverhalt über mehrere Definitionen, Verfahrensregeln oder sogar verschiedene Gesetze verteilt. Ein naiver Textvergleich verfehlt gerade diese strukturellen Erweiterungen.

Einseitiger Blick. Deutschland kann Richtlinien auch zu schwach umsetzen oder Teile unvollständig transponieren. Wenn das System nur darauf getrimmt ist, Überschreitungen zu finden, übersieht es systematisch die Gegenrichtung. Eine belastbare Methodik muss beides prüfen.

Kontextkollaps. Zwischen „die Mitgliedstaaten stellen sicher" und „die Mitgliedstaaten können vorsehen" liegt der entscheidende Unterschied zwischen Pflicht und Ermessen. Genau dort trennt sich legitime nationale Politik von möglichem Gold-Plating. Modelle glätten diese Differenz regelmäßig, wenn die Analysearchitektur sie nicht dazu zwingt, sie sauber zu behandeln.

Ein vereinfachtes Beispiel

Nehmen wir einen vereinfachten Fall. Eine Richtlinie sagt, dass Mitgliedstaaten bei Betreibern oberhalb einer bestimmten Risikoschwelle zusätzliche Berichte verlangen können. Das nationale Gesetz macht daraus eine Pflicht für eine deutlich breitere Gruppe von Organisationen und ergänzt kürzere Fristen sowie zusätzliche Dokumentationspflichten.

Das könnte Gold-Plating sein. Automatisch ist es das aber nicht.

Man muss immer noch klären:

ob die Richtlinie diesen Spielraum ausdrücklich eröffnet
ob die nationale Pflicht bereits vor der Richtlinie im innerstaatlichen Recht existierte
ob die Erweiterung über eine Definition, einen Schwellenwert, eine Verfahrensregel oder einen separaten Umsetzungsakt eingeführt wird
ob die Abweichung politisch gewollt, anderweitig rechtlich geboten oder analytisch nicht zu rechtfertigen ist

Das ist kein Prompt-Trick. Das ist ein Klassifikationsproblem mit rechtlichen und strukturellen Abhängigkeiten.

Wie eine belastbare Analysearchitektur aussieht

Bei der Gold-Plating-Erkennung im PolicyMonitor folgt die Analyse einer mehrstufigen Architektur, die genau die oben genannten Fehlermodi kontrolliert.

Stufe 1: Fallauswahl

Nicht jede Richtlinie lohnt eine Analyse. Die erste Filterstufe ist strategisch: Gibt es einen klaren Umsetzungsakt, ist die Richtlinie politisch noch relevant, betrifft sie Sektoren mit messbarer wirtschaftlicher Wirkung, und gibt es genug Textmaterial für einen strukturierten Vergleich? Schlechte Fallauswahl ist teuer, weil sie den Anschein von Ergebnis erzeugt, ohne brauchbare Befunde zu liefern.

Stufe 2: Strukturierte Zerlegung

Statt ganze Dokumente zu vergleichen, werden die Texte in normative Einheiten zerlegt: Pflichten, Erlaubnisse, Definitionen, Schwellenwerte und Verfahrensanforderungen. Jede Einheit erhält einen regulatorischen Charakter, etwa Mindestpflicht, optionale Bestimmung oder Mitgliedstaatenspielraum. Die nationalen Vorschriften werden dann gegen diese Einheiten gemappt, sodass die Analyse die Asymmetrie zwischen EU- und nationaler Rechtsarchitektur überlebt.

Stufe 3: KI innerhalb einer deterministischen Spine

An dieser Stelle wird KI nützlich, aber nur als begrenzte Komponente. Das übergeordnete Muster habe ich an anderer Stelle als deterministische Spine beschrieben: Prozessfluss, Validierungsschritte und Ausgabestruktur bleiben fest, während die KI innerhalb dieser Grenzen klar umrissene Analyseaufgaben übernimmt.

Jede potenzielle Abweichung durchläuft konkrete Prüfungen:

Quellenprüfung: Existiert der zitierte Artikel tatsächlich und sagt er das, was das Modell behauptet
Kreuzvalidierung: Kommt ein unabhängiger zweiter Durchlauf zum selben Ergebnis
Klassifikation: Handelt es sich um einen echten Zusatz, eine Reichweitenausweitung, einen strengeren Schwellenwert oder um legitime Ausübung von Ermessen
Konfidenzsteuerung: Fälle mit niedriger Sicherheit werden zur Prüfung markiert und nicht als Befund ausgegeben

Das ist sehr viel näher an einer sicherheitskritischen Pipeline als an der populären Fantasie von „frag einfach das Modell".

Stufe 4: Nachvollziehbare Ausgabe

Jeder belastbare Befund muss auf konkrete Stellen in Richtlinie und nationalem Recht zurückverweisen, mit extrahierten Passagen und klarer Klassifikation des Abweichungstyps. Ohne Nachvollziehbarkeit ist das Ergebnis keine Analyse. Es ist Meinung mit Formatierung.

Das Auswahlproblem, über das kaum jemand spricht

Die politische Debatte behandelt Gold-Plating oft so, als könne man einfach alle Richtlinien durch einen Filter schicken. In Wirklichkeit prägt schon die Auswahl der Fälle das Ergebnis.

Wer nur Arbeitsrecht betrachtet, findet häufig deutsche Mindestüberschreitungen aus bewusst politischen Gründen. Wer Umweltrecht betrachtet, findet eine Mischung aus echten Zusätzen und älteren nationalen Standards, die nie weg-harmonisiert wurden. Wer Finanzregulierung betrachtet, merkt schnell, dass aufsichtsrechtliche Interpretation mitunter genauso wichtig ist wie der Gesetzestext.

Eine glaubwürdige Gold-Plating-Methodik muss deshalb Auswahlkriterien, Ausschlüsse und Analysegrenzen offenlegen. Das ist keine Nebensache, sondern methodische Hygiene. In der politischen Debatte fehlt genau das häufig. Eine sauber gebaute Systemarchitektur kann es dagegen konsequent erzwingen.

Von der Analyse zur Handlung

Ein Bericht, der nur Abweichungen auflistet, bleibt ein akademisches Artefakt. Der eigentliche Wert beginnt bei der Priorisierung: Welche Abweichungen haben messbare wirtschaftliche Wirkung, welche ließen sich entfernen, ohne legitime politische Ziele zu beschädigen, und welche erfordern Gesetzesänderungen statt bloßer Verwaltungskorrekturen?

Hier endet das technische Screening und hier beginnt menschliche Urteilskraft. Das System kann identifizieren, strukturieren und verifizieren. Rechtliche Bewertung und politische Strategie bleiben menschliche Aufgaben.

PolicyMonitor bietet eine kostenlose Gold-Plating-Analyse für einen ersten Deviation-Scan. Wenn das Signal relevant ist, liefert das kostenpflichtige technische Screening einen strukturierten, quellenverknüpften Bericht für juristische Prüfung und politische Strategie. PolicyMonitor ansehen oder Kontakt aufnehmen.

Quellenhinweis

Die Angabe von rund 1 Milliarde Euro zusätzlichem Erfüllungsaufwand basiert auf der Berichterstattung des Nationalen Normenkontrollrats (NKR) aus dem Jahr 2024 zu Belastungen aus der Umsetzung von EU-Richtlinien.