AegisSight-Monitor

Autor	SHA1	Nachricht	Datum
claude-dev	f05bd1a064	QC: Umlaut-Dict aus hunspell-de-de generieren (statt handkuratiert) Loest das Abdeckungs-Problem des handkuratierten Dicts (~300 Eintraege, ~95%). Neu: vollautomatisch erzeugtes Korpus-Dict aus hunspell-de-de mit 153.869 Eintraegen (>99% Abdeckung), plus schlankes Supplement fuer Komposita, die hunspell nicht liefert. Build-Skript (scripts/build_umlaut_dict.py): - ruft /usr/bin/unmunch gegen /usr/share/hunspell/de_DE.dic+aff auf - filtert Woerter mit echten Umlauten (ä/ö/ü/ß) - generiert je Wort die Umschreibungsform (ae/oe/ue/ss) + Capitalize - Mehrdeutigkeits-Check: skippt Paare wo die Umschreibung selbst ein gueltiges deutsches Wort ist (z. B. dass/daß, Masse/Maße, Busse/Buße) - Ergebnis: 153.869 Eintraege, 27 mehrdeutige Formen ausgefiltert - Alphabetisch sortiertes JSON (diff-freundlich) Laufzeit-Refactor (src/services/post_refresh_qc.py): - _UMLAUT_BASE Dict (handkuratiert) entfernt, dafuer JSON-Loader beim Modul-Import aus src/services/umlaut_dict.json - _MANUAL_SUPPLEMENT fuer Luecken (Konjunktiv saeen, Amtstitel- Komposita wie Aussenminister/Parlamentspraesident, Strassen- Komposita, Fuehrungs-Komposita) — ueberlagert Korpus-Dict - _UMLAUT_WHITELIST erweitert um englische Fremdwoerter (Boeing, Business, Access, Process, Message, Password, Miss, Boss, Goethe, Yahoo, Israel, Israels) - Regex-Strategie umgestellt: statt riesigem alternierenden Pattern ueber alle Keys jetzt Tokenizer (_WORD_PATTERN) + O(1) Dict-Lookup pro Wort. Deutlich performanter bei 150k+ Eintraegen. - normalize_german_umlauts() Signatur unveraendert - normalize_umlaut_fields() unveraendert - Einhaengung in run_post_refresh_qc() unveraendert Daten-Artefakt (src/services/umlaut_dict.json): - 4.88 MB alphabetisch sortiertes JSON - Im Repo committet zwecks Reproduzierbarkeit und kein hunspell- Laufzeit-Abhaengigkeit im Container Verwerfbarkeit voll erhalten: - git revert entfernt alle drei neuen Elemente - Bestand in DB bleibt repariert (korrektes Deutsch, kein Schaden) - hunspell-Paket kann bleiben oder mit apt purge entfernt werden Bootstrap-Rerun mit neuem Dict: - 7 Lagen aktualisiert, 306 zusaetzliche Ersetzungen - Lage #6 (Irankonflikt) von 140 ursprungs- und 15 Rest-Treffern nach voriger Runde jetzt auf 0 Hard-Hits - andere aktive Lagen insgesamt 8 verbleibende Rest-Treffer (spezielle Eigennamen, koennen bei Bedarf ins Supplement) Performance: - Dict-Load beim Modul-Import: ~100 ms - Gesamt Unit-Tests (11 Faelle): 161 ms - Refresh-Pfad unveraendert schnell: O(Wortzahl) mit Hashmap-Lookup	2026-04-18 21:17:46 +00:00
claude-dev	15a650bfc9	QC: Umlaut-Normalisierung + Prompt-Ergaenzung Drei unabhaengige Schutzschichten gegen falsche Umschreibungen (ae/oe/ue/ss statt ä/ö/ü/ß) im Lagebild: 1. Prompt-Ergaenzung in INCREMENTAL_ANALYSIS_PROMPT_TEMPLATE und INCREMENTAL_BRIEFING_PROMPT_TEMPLATE (analyzer.py): explizite Priorisierung, dass die Regel "echte UTF-8-Umlaute" Vorrang vor "bestehende Formulierungen beibehalten" hat. Adressiert den Fall, dass Claude beim inkrementellen Update Altlasten weitertraegt. 2. Deterministische Normalisierung in post_refresh_qc.py: - normalize_german_umlauts(text) - Regex mit Wortgrenzen, case- preserving, Whitelist-tauglich, ~140 Eintraege im Woerterbuch abgeleitet aus den 140 Hard-Hits in Lage #6 - normalize_umlaut_fields(db, incident_id) - laedt summary und latest_developments, normalisiert, schreibt nur bei Aenderungen zurueck (idempotent) - Eingehaengt in run_post_refresh_qc() nach dem Location-Check, Fehler stoppen die Pipeline nicht (identisches Muster wie bestehende Checks) 3. scripts/bootstrap_umlaut_repair.py - Einmal-Skript zur Bestandsbereinigung der bereits gespeicherten summary-Felder. Idempotent. Beim initialen Lauf auf Produktiv-DB: 14 Lagen aktualisiert, 431 Ersetzungen insgesamt, Lage #6 von 140 auf 15 Rest-Treffer reduziert. Whitelist (leer): aktuell kein Konflikt zwischen deutschen Ziel- Woertern und englischen Fremdwoertern. Kann bei Bedarf erweitert werden ohne Schema-Aenderung. Verifikation: - py_compile OK fuer alle drei Dateien - Service-Restart ohne Errors - Unit-Tests: positive Faelle ("Oeffnung der Strasse" -> 4 Ersetzungen), Whitelist ("Boeing liefert Business-Access" -> 0 Ersetzungen), Komposita ("Wasserstrasse", "Parlamentspraesident") korrekt - Bootstrap 2x ausgefuehrt (erster Lauf 288 Ersetzungen, zweiter 143 nach Dict-Erweiterung), kumulativ 431 Architektur bleibt dormant ohne Daten-Altlasten: wenn keine Lage Umschreibungen enthaelt, arbeitet normalize_umlaut_fields in <1ms und schreibt nichts. Kein Overhead im Refresh-Pfad.	2026-04-18 14:00:00 +00:00
Claude Dev	19da099583	feat: Kontextabhängige Karten-Kategorien 4 feste Farbstufen (primary/secondary/tertiary/mentioned) mit variablen Labels pro Lage, die von Haiku generiert werden. - DB: category_labels Spalte in incidents, alte Kategorien migriert (target->primary, response/retaliation->secondary, actor->tertiary) - Geoparsing: generate_category_labels() + neuer Prompt mit neuen Keys - QC: Kategorieprüfung auf neue Keys umgestellt - Orchestrator: Tuple-Rückgabe + Labels in DB speichern - API: category_labels im Locations- und Lagebild-Response - Frontend: Dynamische Legende aus API-Labels mit Fallback-Defaults - Migrationsskript für bestehende Lagen Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-15 15:04:02 +01:00
claude-dev	445f645936	feat: Post-Refresh QC auf Haiku umgestellt Faktencheck-Duplikate: Fuzzy-Vorfilter (Threshold 0.60) reduziert Kandidaten, Haiku clustert semantische Duplikate kontextbezogen. Karten-Locations: Haiku bewertet target-Kategorien anhand des Lage-Kontexts statt statischer Wortlisten. Kosten ca. 0.005-0.008 USD pro Check. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-10 21:49:50 +01:00
claude-dev	81a393fd4a	feat: Post-Refresh Quality Check fuer Faktenchecks und Karten-Locations Automatischer QC-Schritt nach jedem Refresh: - Erkennt inhaltliche Faktencheck-Duplikate via Fuzzy-Matching (Threshold 0.80) - Korrigiert falsch kategorisierte Karten-Locations (z.B. entfernte Laender als 'target') - Laeuft nach dem Faktencheck-Commit, vor den Notifications - Fehler im QC blockieren nicht den Refresh-Ablauf Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-10 21:41:45 +01:00

5 Commits