QC: Umlaut-Dict aus hunspell-de-de generieren (statt handkuratiert)

Loest das Abdeckungs-Problem des handkuratierten Dicts (~300 Eintraege, ~95%). Neu: vollautomatisch erzeugtes Korpus-Dict aus hunspell-de-de mit 153.869 Eintraegen (>99% Abdeckung), plus schlankes Supplement fuer Komposita, die hunspell nicht liefert. Build-Skript (scripts/build_umlaut_dict.py): - ruft /usr/bin/unmunch gegen /usr/share/hunspell/de_DE.dic+aff auf - filtert Woerter mit echten Umlauten (ä/ö/ü/ß) - generiert je Wort die Umschreibungsform (ae/oe/ue/ss) + Capitalize - Mehrdeutigkeits-Check: skippt Paare wo die Umschreibung selbst ein gueltiges deutsches Wort ist (z. B. dass/daß, Masse/Maße, Busse/Buße) - Ergebnis: 153.869 Eintraege, 27 mehrdeutige Formen ausgefiltert - Alphabetisch sortiertes JSON (diff-freundlich) Laufzeit-Refactor (src/services/post_refresh_qc.py): - _UMLAUT_BASE Dict (handkuratiert) entfernt, dafuer JSON-Loader beim Modul-Import aus src/services/umlaut_dict.json - _MANUAL_SUPPLEMENT fuer Luecken (Konjunktiv saeen, Amtstitel- Komposita wie Aussenminister/Parlamentspraesident, Strassen- Komposita, Fuehrungs-Komposita) — ueberlagert Korpus-Dict - _UMLAUT_WHITELIST erweitert um englische Fremdwoerter (Boeing, Business, Access, Process, Message, Password, Miss, Boss, Goethe, Yahoo, Israel, Israels) - Regex-Strategie umgestellt: statt riesigem alternierenden Pattern ueber alle Keys jetzt Tokenizer (_WORD_PATTERN) + O(1) Dict-Lookup pro Wort. Deutlich performanter bei 150k+ Eintraegen. - normalize_german_umlauts() Signatur unveraendert - normalize_umlaut_fields() unveraendert - Einhaengung in run_post_refresh_qc() unveraendert Daten-Artefakt (src/services/umlaut_dict.json): - 4.88 MB alphabetisch sortiertes JSON - Im Repo committet zwecks Reproduzierbarkeit und kein hunspell- Laufzeit-Abhaengigkeit im Container Verwerfbarkeit voll erhalten: - git revert entfernt alle drei neuen Elemente - Bestand in DB bleibt repariert (korrektes Deutsch, kein Schaden) - hunspell-Paket kann bleiben oder mit apt purge entfernt werden Bootstrap-Rerun mit neuem Dict: - 7 Lagen aktualisiert, 306 zusaetzliche Ersetzungen - Lage #6 (Irankonflikt) von 140 ursprungs- und 15 Rest-Treffern nach voriger Runde jetzt auf 0 Hard-Hits - andere aktive Lagen insgesamt 8 verbleibende Rest-Treffer (spezielle Eigennamen, koennen bei Bedarf ins Supplement) Performance: - Dict-Load beim Modul-Import: ~100 ms - Gesamt Unit-Tests (11 Faelle): 161 ms - Refresh-Pfad unveraendert schnell: O(Wortzahl) mit Hashmap-Lookup
2026-04-18 21:17:46 +00:00
Commit f05bd1a064
--- a/src/services/post_refresh_qc.py
+++ b/src/services/post_refresh_qc.py
@@ -9,6 +9,7 @@ Regelbasierte Listen dienen als Fallback falls Haiku fehlschlaegt.
 """
 import json
 import logging
+import os
 import re
 from difflib import SequenceMatcher

@@ -425,191 +426,82 @@ async def run_post_refresh_qc(db, incident_id: int) -> dict:
 # 3. Umlaut-Normalisierung (deterministisch, Sicherheitsnetz gegen LLM-Drift)
 # ---------------------------------------------------------------------------

-# Basis-Woerterbuch: Umschreibungsform (lowercase) -> Umlaut-Form.
-# Die Capitalize-Variante wird automatisch generiert (z. B. "Oeffnung" -> "Öffnung").
-_UMLAUT_BASE = {
-    # Oeffnung / Schliessung / Strasse / Schuesse (Topic-spezifisch aus Lage #6)
-    "oeffnung": "öffnung", "oeffnungen": "öffnungen",
-    "oeffne": "öffne", "oeffnen": "öffnen", "oeffnet": "öffnet",
-    "geoeffnet": "geöffnet", "geoeffnete": "geöffnete", "geoeffneten": "geöffneten",
-    "oeffentlich": "öffentlich", "oeffentlichkeit": "öffentlichkeit",
-    "schliessung": "schließung", "schliessen": "schließen", "schliesst": "schließt",
-    "schliesse": "schließe", "schliesslich": "schließlich",
-    "strasse": "straße", "strassen": "straßen",
-    "schuss": "schuss", "schuesse": "schüsse", "schuessen": "schüssen",
-    "beschuss": "beschuss",
-    # Hilfsverben + haeufige Woerter
-    "fuer": "für", "fuers": "fürs",
-    "ueber": "über", "ueberall": "überall", "ueberfall": "überfall",
-    "moeglich": "möglich", "moegliche": "mögliche", "moeglicher": "möglicher",
-    "moegliches": "mögliches", "moeglichen": "möglichen",
-    "moeglichkeit": "möglichkeit", "moeglichkeiten": "möglichkeiten",
-    "koennen": "können", "koennte": "könnte", "koennten": "könnten",
-    "koenne": "könne", "koennt": "könnt",
-    "muessen": "müssen", "muesse": "müsse", "muessten": "müssten",
-    "muesste": "müsste", "muesst": "müsst",
-    "duerfen": "dürfen", "duerfte": "dürfte", "duerften": "dürften",
-    # fuehr*, waehr*, loes*, erklaer*
-    "fuehren": "führen", "fuehrt": "führt", "fuehrte": "führte", "gefuehrt": "geführt",
-    "fuehrung": "führung", "fuehrungen": "führungen", "fuehrer": "führer",
-    "ausfuehren": "ausführen", "ausgefuehrt": "ausgeführt", "ausfuehrlich": "ausführlich",
-    "einfuehrung": "einführung", "einfuehren": "einführen",
-    "waehrend": "während", "waehrung": "währung", "waehrungen": "währungen",
-    "gewaehren": "gewähren", "gewaehrt": "gewährt", "gewaehrleisten": "gewährleisten",
-    "erwaehnt": "erwähnt", "erwaehnung": "erwähnung", "erwaehnen": "erwähnen",
-    "loesen": "lösen", "loest": "löst", "geloest": "gelöst",
-    "loesung": "lösung", "loesungen": "lösungen",
-    "loeschen": "löschen", "geloescht": "gelöscht",
-    "erklaeren": "erklären", "erklaert": "erklärt", "erklaerte": "erklärte",
-    "erklaerten": "erklärten", "erklaertes": "erklärtes", "erklaertem": "erklärtem",
-    "erklaerung": "erklärung", "erklaerungen": "erklärungen",
-    "verspaetet": "verspätet", "verspaetung": "verspätung", "verspaetungen": "verspätungen",
-    "veroeffentlichen": "veröffentlichen", "veroeffentlicht": "veröffentlicht",
-    "veroeffentlichte": "veröffentlichte", "veroeffentlichten": "veröffentlichten",
-    "veroeffentlichung": "veröffentlichung", "veroeffentlichungen": "veröffentlichungen",
-    # Auslaender, Verstaendnis, Bevoelkerung
-    "auslaender": "ausländer", "auslaendisch": "ausländisch",
-    "auslaendische": "ausländische", "auslaendischen": "ausländischen",
-    "verstaendnis": "verständnis", "verstaendigung": "verständigung",
-    "verstaendlich": "verständlich", "verstaendlicher": "verständlicher",
-    "bevoelkerung": "bevölkerung", "bevoelkerungen": "bevölkerungen",
-    # Aussen, Aeusser, Kuenftig, Grundsaetzlich
-    "aussen": "außen", "aussenminister": "außenminister",
-    "aussenministerin": "außenministerin", "aussenpolitik": "außenpolitik",
+# Das grosse Mapping wird aus umlaut_dict.json geladen. Das JSON wird einmalig
+# aus hunspell-de-de erzeugt (siehe scripts/build_umlaut_dict.py) und enthaelt
+# >150.000 deutsche Umlaut-Woerter inklusive Flexionsformen. Mehrdeutigkeiten
+# (z. B. "dass"/"daß", "Masse"/"Maße") sind bereits ausgefiltert.
+_DICT_PATH = os.path.join(os.path.dirname(__file__), "umlaut_dict.json")
+try:
+    with open(_DICT_PATH, encoding="utf-8") as _dict_file:
+        _UMLAUT_REPLACEMENTS = json.load(_dict_file)
+    logger.info("Umlaut-Dict geladen: %d Eintraege aus %s", len(_UMLAUT_REPLACEMENTS), _DICT_PATH)
+except FileNotFoundError:
+    logger.warning("umlaut_dict.json nicht gefunden – Umlaut-Normalisierung laeuft mit leerem Dict")
+    _UMLAUT_REPLACEMENTS = {}
+
+# _MANUAL_SUPPLEMENT: Lueckenfueller fuer Woerter, die hunspell-de-de nicht abdeckt
+# (primaer Komposita und seltene Konjunktiv-Formen). Wird ueber das Korpus-Dict gelegt.
+_MANUAL_SUPPLEMENT = {
+    # Konjunktiv I von "saeen" (selten, aber kommt vor)
+    "saee": "säe", "saeen": "säen", "gesaet": "gesät",
+    # Komposita mit Amtstitel, die hunspell als Teile kennt aber nicht kombiniert
+    "aussenminister": "außenminister", "aussenministerin": "außenministerin",
+    "aussenministern": "außenministern",
+    "aussenpolitik": "außenpolitik",
    "aussenpolitisch": "außenpolitisch", "aussenpolitische": "außenpolitische",
-    "aeusserung": "äußerung", "aeusserungen": "äußerungen",
-    "aeussern": "äußern", "aeussert": "äußert", "aeusserte": "äußerte",
-    "aeusserst": "äußerst", "aeussere": "äußere", "aeusseren": "äußeren",
-    "kuenftig": "künftig", "kuenftige": "künftige", "kuenftigen": "künftigen",
-    "grundsaetzlich": "grundsätzlich", "grundsaetze": "grundsätze", "grundsatz": "grundsatz",
-    # Maenner, Aerzte, Aendern, Entsteh*
-    "maenner": "männer", "maennlich": "männlich", "maennliche": "männliche",
-    "aerzte": "ärzte", "aerztlich": "ärztlich", "aerztliche": "ärztliche",
-    "aendern": "ändern", "aenderung": "änderung", "aenderungen": "änderungen",
-    "geaendert": "geändert", "unveraendert": "unverändert",
-    "verstaerken": "verstärken", "verstaerkt": "verstärkt", "verstaerkung": "verstärkung",
-    # Gruend*, Rueck*, Zurueck*
-    "gruenden": "gründen", "gruendung": "gründung", "gegruendet": "gegründet",
-    "gruende": "gründe", "begruendung": "begründung", "begruendet": "begründet",
-    "rueckkehr": "rückkehr", "rueckzug": "rückzug", "ruecken": "rücken",
-    "rueckseite": "rückseite", "rueckfall": "rückfall",
-    "zuruecknahme": "zurücknahme", "zurueck": "zurück", "zuruecknehmen": "zurücknehmen",
-    "zurueckgezogen": "zurückgezogen", "zurueckgekehrt": "zurückgekehrt",
-    # Fluege, Behoerden, Buerg*
-    "fluege": "flüge", "fluegel": "flügel",
-    "ruestung": "rüstung", "ruestungen": "rüstungen", "ruestungsexport": "rüstungsexport",
-    "aufruestung": "aufrüstung", "abruestung": "abrüstung",
-    "anschliessen": "anschließen", "anschliesst": "anschließt",
-    "angeschlossen": "angeschlossen",
-    "entschliessen": "entschließen", "entschliesst": "entschließt",
-    "entschloss": "entschloss", "entschlossen": "entschlossen",
-    "entschliessung": "entschließung",
-    "beschliessen": "beschließen", "beschliesst": "beschließt",
-    "beschloss": "beschloss", "beschlossen": "beschlossen", "beschluss": "beschluss",
-    "ausschliessen": "ausschließen", "ausschliesst": "ausschließt",
-    "ausgeschlossen": "ausgeschlossen", "ausschluss": "ausschluss",
-    "erfuellen": "erfüllen", "erfuellt": "erfüllt", "erfuellung": "erfüllung",
-    "durchfuehren": "durchführen", "durchgefuehrt": "durchgeführt",
-    "durchfuehrung": "durchführung",
-    "zurueckfuehren": "zurückführen", "zurueckgefuehrt": "zurückgeführt",
-    "zurueckziehen": "zurückziehen", "zurueckgezogen": "zurückgezogen",
-    "zurueckgewiesen": "zurückgewiesen",
-    "behoerde": "behörde", "behoerden": "behörden", "behoerdlich": "behördlich",
-    "buerger": "bürger", "buergerlich": "bürgerlich", "buergermeister": "bürgermeister",
-    "buergerrechte": "bürgerrechte",
-    "tuerkei": "türkei", "tuerkisch": "türkisch", "tuerkische": "türkische",
-    "tuerkischen": "türkischen", "tuerke": "türke", "tuerken": "türken",
-    # Staedtenamen (Spezialfaelle)
-    "koeln": "köln", "koelner": "kölner",
-    "muenchen": "münchen", "muenchner": "münchner",
-    # Thema aktueller Lage: Praesident, Druecker, etc.
-    "praesident": "präsident", "praesidentin": "präsidentin",
-    "praesidenten": "präsidenten", "praesidentschaft": "präsidentschaft",
-    # Suedeutsch -> Sueddeutsch (Doppel-D-Spezialfall, daher NICHT in der Form ss/oe)
-    # NOTE: "Suedeutsch" ist schon die Umschreibung; korrekt ist "Sueddeutsch"
-    # dann weiter zu "Süddeutsch". Wir loesen nur die ue->ü-Wandlung:
-    "suedeutsch": "süddeutsch", "suedeutsche": "süddeutsche",
-    "suedeutschen": "süddeutschen",
-    "sueddeutsch": "süddeutsch", "sueddeutsche": "süddeutsche",
-    "sueddeutschen": "süddeutschen",
-    "sued": "süd", "sueden": "süden", "suedlich": "südlich",
-    "suedost": "südost", "suedwest": "südwest",
-    "suedkorea": "südkorea", "suedkoreas": "südkoreas", "suedkoreanisch": "südkoreanisch",
-    # Bestaetigen, Gespraech, Toetung, Sekretaer, Franzoesisch
-    "bestaetigen": "bestätigen", "bestaetigt": "bestätigt",
-    "bestaetigte": "bestätigte", "bestaetigten": "bestätigten",
-    "bestaetigung": "bestätigung", "bestaetigungen": "bestätigungen",
-    "gespraech": "gespräch", "gespraeche": "gespräche",
-    "gespraechen": "gesprächen", "gespraechs": "gesprächs",
-    "toetung": "tötung", "toetungen": "tötungen",
-    "toeten": "töten", "toetet": "tötet", "getoetet": "getötet",
-    "sekretaer": "sekretär", "sekretaerin": "sekretärin",
+    "aussenpolitischer": "außenpolitischer", "aussenpolitischen": "außenpolitischen",
+    "vizepraesident": "vizepräsident", "vizepraesidenten": "vizepräsidenten",
+    "vizepraesidentin": "vizepräsidentin",
+    "parlamentspraesident": "parlamentspräsident",
+    "parlamentspraesidenten": "parlamentspräsidenten",
+    "parlamentspraesidentin": "parlamentspräsidentin",
    "generalsekretaer": "generalsekretär", "generalsekretaerin": "generalsekretärin",
-    "franzoesisch": "französisch", "franzoesische": "französische",
-    "franzoesischen": "französischen", "franzoesischer": "französischer",
-    "franzoesisches": "französisches",
-    # Sanitaeter, Stationaer, Militaer, Maerz, Vollstaendig
-    "sanitaet": "sanität", "sanitaeter": "sanitäter",
-    "stationaer": "stationär", "stationaere": "stationäre", "stationaeren": "stationären",
-    "militaer": "militär", "militaerisch": "militärisch",
-    "militaerische": "militärische", "militaerischen": "militärischen",
+    "generalsekretaers": "generalsekretärs",
+    "staatssekretaer": "staatssekretär", "staatssekretaerin": "staatssekretärin",
+    # Strassen-Komposita
+    "wasserstrasse": "wasserstraße", "wasserstrassen": "wasserstraßen",
+    "hauptstrasse": "hauptstraße", "autostrasse": "autostraße",
+    "bundesstrasse": "bundesstraße", "landstrasse": "landstraße",
+    # Militaer-Komposita (haeufig in OSINT-Kontext)
    "militaerkommando": "militärkommando", "militaerbasis": "militärbasis",
    "militaerschlag": "militärschlag", "militaerschlaege": "militärschläge",
-    "maerz": "märz",
-    "vollstaendig": "vollständig", "vollstaendige": "vollständige",
-    "vollstaendigen": "vollständigen", "vollstaendigkeit": "vollständigkeit",
-    # Gegenueber, Abhaengig, Zehntaegig, Geloest, Enthuellt, Wuerden, Weiss
-    "gegenueber": "gegenüber",
-    "abhaengig": "abhängig", "abhaengige": "abhängige", "abhaengigen": "abhängigen",
-    "abhaengigkeit": "abhängigkeit", "unabhaengig": "unabhängig",
-    "taeglich": "täglich", "taegliche": "tägliche", "taeglichen": "täglichen",
-    "taegig": "tägig", "zehntaegig": "zehntägig", "zehntaegige": "zehntägige",
-    "geloest": "gelöst", "geloeste": "gelöste", "geloesten": "gelösten",
-    "enthuellen": "enthüllen", "enthuellt": "enthüllt",
-    "enthuellte": "enthüllte", "enthuellung": "enthüllung",
-    "wuerde": "würde", "wuerden": "würden", "wuerdig": "würdig",
-    "wuerdigung": "würdigung",
-    "weiss": "weiß", "weisse": "weiße", "weissen": "weißen", "weisses": "weißes",
-    # Vize- und Parlamentspraesident, Ankuendigung, Knuepfen
-    "vizepraesident": "vizepräsident", "vizepraesidentin": "vizepräsidentin",
-    "vizepraesidenten": "vizepräsidenten",
-    "parlamentspraesident": "parlamentspräsident",
-    "ankuendigung": "ankündigung", "ankuendigungen": "ankündigungen",
-    "ankuendigen": "ankündigen", "angekuendigt": "angekündigt",
-    "knuepfen": "knüpfen", "knuepft": "knüpft", "geknuepft": "geknüpft",
-    "anknuepfen": "anknüpfen",
-    # Komposita mit Strasse, Oeffnung
-    "wasserstrasse": "wasserstraße", "wasserstrassen": "wasserstraßen",
-    "autostrasse": "autostraße", "hauptstrasse": "hauptstraße",
-    # Weitere zusammengesetzte Formen
-    "zugefuehrt": "zugeführt", "ueberfuehrt": "überführt",
-    "hergefuehrt": "hergeführt", "hingefuehrt": "hingeführt",
+    # Suedeutsch-Doppel-D-Spezialfall (haendisch korrigierbar)
+    "suedeutsch": "süddeutsch", "suedeutsche": "süddeutsche",
+    "suedeutschen": "süddeutschen",
+    # Fuehrungs- und Oeffnungs-Komposita (hunspell kennt die Stamm-Woerter, nicht die Komposita)
+    "wiedereroeffnung": "wiedereröffnung", "wiedereroeffnungen": "wiedereröffnungen",
+    "kriegsfuehrung": "kriegsführung", "kriegsfuehrer": "kriegsführer",
+    "fuehrungsebene": "führungsebene", "fuehrungsebenen": "führungsebenen",
+    "fuehrungskraft": "führungskraft", "fuehrungskraefte": "führungskräfte",
+    "fuehrungsposition": "führungsposition", "fuehrungspositionen": "führungspositionen",
+    "fuehrungsrolle": "führungsrolle",
+    "geschaeftsfuehrer": "geschäftsführer", "geschaeftsfuehrung": "geschäftsführung",
+    "staatsfuehrung": "staatsführung", "parteifuehrung": "parteiführung",
+    "militaerfuehrung": "militärführung",
 }
+# Capitalize-Varianten fuer das Supplement (hunspell-Korpus hat sie schon eingebaut)
+_MANUAL_SUPPLEMENT_FULL = {}
+for _k, _v in _MANUAL_SUPPLEMENT.items():
+    _MANUAL_SUPPLEMENT_FULL[_k] = _v
+    if _k[:1].islower():
+        _MANUAL_SUPPLEMENT_FULL[_k[:1].upper() + _k[1:]] = _v[:1].upper() + _v[1:]

+# Supplement ueber das Korpus-Dict legen (Supplement hat Vorrang bei Kollision)
+_UMLAUT_REPLACEMENTS = {**_UMLAUT_REPLACEMENTS, **_MANUAL_SUPPLEMENT_FULL}

-def _build_umlaut_map() -> dict:
-    """Baut die vollstaendige Ersetzungs-Map inklusive Capitalize-Varianten."""
-    result = {}
-    for k, v in _UMLAUT_BASE.items():
-        result[k] = v
-        # Erste-Buchstabe-gross (haeufigster Case am Satzanfang)
-        result[k[:1].upper() + k[1:]] = v[:1].upper() + v[1:]
-    return result
+# Whitelist: Tokens, die trotz Dict-Match NIE ersetzt werden (Eigennamen,
+# englische Fremdwoerter, Fachbegriffe). Greift vor dem Dict-Lookup.
+_UMLAUT_WHITELIST = frozenset({
+    # Englische Fremdwoerter
+    "Boeing", "Business", "Access", "Process", "Message", "Password",
+    "Miss", "Boss", "Goethe", "Yahoo",
+    # Eigennamen, die zufaellig "ss" enthalten und nicht umgeschrieben werden sollen
+    "Israel", "Israels",
+})

-
-_UMLAUT_REPLACEMENTS = _build_umlaut_map()
-
-# Whitelist: Tokens, die trotz potenziellen Matches NIE ersetzt werden.
-# Aktuell leer, weil kein Eintrag in _UMLAUT_BASE mit englischen Eigennamen kollidiert.
-# Falls in Zukunft Ambiguitaeten auftreten (z. B. Nachname "Kuehn"), hier ergaenzen.
-_UMLAUT_WHITELIST = frozenset()
-
-# Kompilierter Regex: laengste Keys zuerst (damit "aussenminister" vor "aussen" trifft)
-_UMLAUT_PATTERN = re.compile(
-    r"\b(" + "|".join(
-        re.escape(k) for k in sorted(_UMLAUT_REPLACEMENTS.keys(), key=len, reverse=True)
-    ) + r")\b"
-)
+# Tokenizer: matcht Woerter aus Buchstaben (inkl. deutschen Umlauten).
+# Performanter als ein alternierendes Regex ueber 150k Keys — O(1) Dict-Lookup pro Wort.
+_WORD_PATTERN = re.compile(r"[A-Za-zÄÖÜäöüß]+")


 def normalize_german_umlauts(text: str) -> tuple[str, int]:
@@ -635,7 +527,7 @@ def normalize_german_umlauts(text: str) -> tuple[str, int]:
        count[0] += 1
        return replacement

-    new_text = _UMLAUT_PATTERN.sub(_replace, text)
+    new_text = _WORD_PATTERN.sub(_replace, text)
    return new_text, count[0]