AegisSight-Monitor

Datei suchen

Claude Code 98c9da64b0 Umlaut-Normalisierung an drei Stellen + auch articles im QC

Fix fuer ASCII-Umlaute in Headlines/Inhalten (Gespraeche statt Gespraeche).
Zwei Quellen des Problems:
1. Quellen wie dpa-AFX, Telegram TASS/RIA liefern Headlines schon ASCII-fiziert
2. LLM-Uebersetzungen drift en gelegentlich zu ae/oe/ue trotz Prompt

Aenderungen:
- rss_parser.py: nach html_to_text auch normalize_german_umlauts auf
  title und summary anwenden (sicher, hunspell-Dict ignoriert englische
  Woerter wie Boeing/Business)
- orchestrator.py:1418 Translation-INSERT: headline_de und content_de
  durch normalize_german_umlauts schicken (LLM-Drift abfangen)
- post_refresh_qc.py: neue Funktion normalize_umlaut_articles als Sicher-
  heitsnetz analog zu normalize_umlaut_fields. Behandelt headline_de und
  content_de aller Artikel des Incidents; bei language=de zusaetzlich
  headline und content_original. Wird in run_post_refresh_qc nach
  normalize_umlaut_fields aufgerufen.

Backfill: migrations/migrate_umlauts_2026-05-03.py (im Verwaltungs-Repo)

2026-05-02 23:26:19 +00:00

scripts

QC: Umlaut-Dict aus hunspell-de-de generieren (statt handkuratiert)

2026-04-18 21:17:46 +00:00

src

Umlaut-Normalisierung an drei Stellen + auch articles im QC

2026-05-02 23:26:19 +00:00

.gitignore

WICHTIG: DB_PATH per ENV ueberschreibbar; data-Symlink aus Repo entfernt

2026-04-26 19:42:33 +00:00

CLAUDE.md

CLAUDE.md: Auto-Deploy + Promote-UI + Live-systemd dokumentiert