AegisSight-Monitor

Autor	SHA1	Nachricht	Datum
Claude	5f053a3eca	fix(source_suggester): Strategie-Eskalation vor Karteileichen ausfuehren Live-Test heute zeigte: Strategie-Eskalations-Heuristik hat keine Vorschlaege erzeugt, obwohl Verfassungsschutz und Rheinische Post beide fetch_strategy= googlebot UND status=error haben. Grund: die Karteileichen-Heuristik lief zuerst und fing diese Sources schon ein (article_count=0, weil googlebot- Workaround blockiert), sodass die Doppel-Vermeidung der Strategie- Eskalations-Stufe alles uebersprungen hat. Fix: Reihenfolge in generate_suggestions umgekehrt. Strategie-Eskalation zuerst (spezifischere Diagnose mit Begruendung "Workaround greift nicht: HTTP 403"), Karteileichen danach (generische Auffanglogik).	2026-05-09 15:43:36 +00:00
Claude	49c557205d	feat(source_suggester): Strategie-Eskalations-Heuristik Neue Funktion generate_strategy_escalation_suggestions(db) erkennt aktive Quellen, deren fetch_strategy bereits auf googlebot oder paywall eskaliert wurde, beim Reachability-Check aber weiterhin status=error melden. Beispiel: Rheinische Post hat fetch_strategy=googlebot, kriegt aber HTTP 403. -> Auch der Googlebot-UA-Workaround greift nicht. Quelle wird automatisch als deactivate-Vorschlag mit priority=high markiert. Doppel-Vermeidung wie in der Karteileichen-Heuristik: nur wenn fuer die source_id noch kein pending deactivate-Vorschlag existiert. Aufgerufen in generate_suggestions als zweite deterministische Stufe, zwischen Karteileichen-Heuristik und Haiku-Aufruf. Counter im Log gibt jetzt alle drei Quellen-Beitraege getrennt aus.	2026-05-09 15:26:05 +00:00
Claude	d973dc7651	feat(source_suggester): Karteileichen-Heuristik vor Haiku-Stufe Neue Funktion generate_stale_deactivation_suggestions(db, days_threshold=60) erzeugt deactivate_source-Vorschlaege fuer aktive Quellen, die entweder - noch nie einen Artikel geliefert haben (article_count=0), oder - seit mehr als 60 Tagen stumm sind (last_seen_at < now - 60d). Reine SQL-Heuristik, kein KI-Aufruf. Wird zu Beginn von generate_suggestions ausgefuehrt, vor dem bestehenden Haiku-Lauf. Doppel-Vermeidung: existiert fuer eine source_id schon ein pending deactivate_source-Vorschlag, wird kein neuer eingefuegt. Hintergrund: Aktuell sind 106 Quellen mit Warning "Noch nie Artikel geliefert" und einige weitere mit "Letzter Artikel vor 49 Tagen" o.ae. Diese fluten den Health-Status-Tab. Mit der neuen Heuristik wandern sie automatisch in die Vorschlaege-Liste, wo der Admin sie per Klick deaktivieren kann. Schwelle 60 Tage als Konstante STALE_DEACTIVATE_THRESHOLD_DAYS oben in der Datei, falls spaeter noch justiert werden soll.	2026-05-09 15:09:32 +00:00
Claude Code	a716726e36	fix(source_health): paywall-Strategie nicht ueber removepaywall fuer Feed-URL removepaywall.com liefert HTML (Article-Renderer), nicht XML - der Feed-Validity-Check schlug daher fehl mit "Kein gueltiger RSS/Atom-Feed". Korrektur: - paywall: Feed-URL direkt mit Browser-UA laden (kein URL-Rewrite). - Bei paywall + 4xx: status=warning (erwartbar), Feed-Validity skippen. - removepaywall.com bleibt im Researcher-Prompt fuer Article-Inhalte (das ist der korrekte Use-Case).	2026-05-09 05:02:18 +00:00
Claude Code	f22c8dbc61	fix: removepaywalls.com -> removepaywall.com (Singular ist die echte Domain) User-Korrektur: die echte Service-Domain heisst removepaywall.com (Singular). removepaywalls.com (Plural) liefert HTTP 403 - vermutlich nicht der gleiche Service oder gar nicht mehr existent. Betrifft: - services/source_health.py: REMOVEPAYWALLS_PREFIX-Konstante (Phase 18) - agents/researcher.py: Claude-Prompts fuer Paywall-Hinweise (zwei Stellen) Verifiziert mit curl: removepaywall.com -> 200, removepaywalls.com -> 403.	2026-05-09 05:00:11 +00:00
Claude Code	8af0fa07c8	feat(source_health): fetch_strategy + Retry mit Googlebot/removepaywalls (Phase 18) Pro Quelle ein Feld sources.fetch_strategy (default \| googlebot \| paywall \| skip): - default: normaler UA, Retry mit Googlebot bei 403/406/429. - googlebot: direkt mit Googlebot-UA (fuer SEO-freundliche Sites). - paywall: Anfrage via removepaywalls.com (fuer Spiegel+/SZ+/FT etc.). - skip: Health-Check ueberspringen (bekannte unerreichbare Quellen wie Login-only). Pre-Flagging in der Migration: FT/WSJ/NZZ/Handelsblatt/WiWo -> paywall, Rheinische Post/Verfassungsschutz -> googlebot. (Test mit den vier prominent fehlerhaften Quellen zeigt: FT/RP/Verfassungsschutz sind besonders streng, gehen auch nicht ueber Googlebot/removepaywalls durch. Fuer milder restriktive Quellen wirkt der Retry-Mechanismus.)	2026-05-09 04:56:06 +00:00
Claude Code	1ee6c4ddf1	fix(source_health): URL-Schema vor httpx.get sicherstellen Telegram-Quellen mit url=t.me/kanal (ohne https:// Prefix) liessen httpx mit "ValueError: unknown url type" crashen. Fix: vor dem Request https:// vorne anhaengen wenn kein Schema vorhanden ist. Beobachtet auf Live: 110 Health-Errors, davon einige Telegram-Kanaele mit "ValueError: unknown url type:" als Fehlermeldung.	2026-05-09 04:45:18 +00:00
Claude Code	72b306d90c	fix(source_health): tenant-faehig + History (Phase 2 in den Monitor ziehen) Phase 2 hatte die Verbesserungen nur in der Verwaltung (src/shared/services/source_health.py). Der Daily-Health-Check laeuft aber im Monitor-Backend (Cron 04:00 UTC) und nutzte deshalb weiter den alten Code - Folge: - Tenant-Quellen wurden NIE gecheckt (0 Eintraege in source_health_checks fuer tenant_id IS NOT NULL). - source_health_history blieb leer. Diese Aenderung holt die Phase-2-Logik in den Monitor: - services/source_health.py: Verwaltung-Version 1:1 uebernommen (tenant_id-Filter weg + History-Save vor DELETE + UA/Timeout aus config). - config.py: HEALTH_CHECK_USER_AGENT + HEALTH_CHECK_TIMEOUT_S ergaenzt. Manueller Test auf Staging-Monitor: 283 Quellen geprueft, 253 Issues, 61 davon Tenant-Quellen. History 0 -> 458 Eintraege. Damit ist die shared/-LOCKED-FILES-Markierung in der Verwaltung obsolet - beide Repos haben jetzt den gleichen Code.	2026-05-09 04:43:01 +00:00
Claude Code	897e56997c	Mojibake fix: source_suggester.py + source_health.py via ftfy Beide Files hatten Doppel-Encoded UTF-8 in Docstrings, Kommentaren und Prompt-Strings (z.B. "prÃƒÂ¼ft" statt "prüft", "VorschlÃƒÂ¤ge" statt "Vorschläge"). ftfy hat das automatisch repariert. Hauptauswirkungen: - Logs sind jetzt mit echten Umlauten lesbar - Claude/Haiku-Prompts in source_suggester.py (Quellen-Vorschlaege via KI) bekommen jetzt korrekte deutsche Umlaute - sollte bessere Antworten geben Daneben hat ftfy line-endings normalisiert, daher der grosse Diff in source_health.py - inhaltlich nur Mojibake-Reparatur. Verifiziert mit: grep -cE "Ã¤\|Ã¶\|Ã¼\|ÃŸ\|Ã„\|Ã–\|Ãœ" src/services/*.py -> 0 Treffer	2026-05-09 03:35:13 +00:00
Claude Code	ff8a0531a4	fix(external_reputation): generische Plattform-Domains (t.me, twitter.com, ...) ignorieren False positive bei sync_eu_disinfo: t.me wurde als Quelle markiert, weil EUvsDisinfo anonyme Telegram-Posts unter der Plattform-Domain aggregiert. Eine Allowlist von Plattform-Domains schliesst diese Falle aus. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-07 19:44:07 +00:00
Claude Code	5fc2467559	feat(sources): externer Reputations-Layer (IFCN + EUvsDisinfo) Externe Datenquellen (kostenlos, Open Data) ergaenzen die LLM-geschaetzte Reliability-Achse mit objektiven Signalen: - IFCN-Signatories (raw.githubusercontent.com/IFCN/verified-signatories): Plain-Text-Liste anerkannter Faktencheck-Organisationen. - EUvsDisinfo (Zenodo CSV): Pro-Kreml-Desinformations-Datenbank. Schema-Erweiterung: - ifcn_signatory, eu_disinfo_listed, eu_disinfo_case_count, eu_disinfo_last_seen, external_data_synced_at. Service src/services/external_reputation.py: - sync_ifcn_signatories(), sync_eu_disinfo(), apply_reputation_overrides(), sync_all() mit Domain-Normalisierung (lowercase, ohne www., ohne Schema). Reliability-Override-Regeln (laufen nach Approve und manuellem Sync): - ifcn_signatory=1 -> reliability=sehr_hoch - eu_disinfo_case_count >= 5 -> reliability=sehr_niedrig - eu_disinfo_case_count >= 1 -> Reliability eine Stufe runter (max niedrig) API: POST /api/sources/external-reputation/sync (Admin, BackgroundTask). Filter: ?ifcn_signatory=true, ?eu_disinfo_listed=true. UI: - Filter-Dropdown "Externe Reputation" im Quellen-Modal. - Badges: gruenes "IFCN" und rotes "EU-Desinfo (n)". - Tooltip macht Reliability-Quelle transparent: "(IFCN-Faktenchecker)", "(EU-Desinfo, n Faelle)" oder "(LLM-Schaetzung)". - "Externe Daten syncen"-Button im Review-Toolbar (Admin-only). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-07 19:40:30 +00:00
Claude Code	62ba38ae46	feat(sources): LLM-Klassifikator + Review-API + Bulk-Migrationsskript - src/services/source_classifier.py: classify_source(db, id) ruft Haiku mit strukturiertem Prompt (4 Achsen + state_affiliated + country + Konfidenz) und schreibt Vorschlaege in proposed_-Spalten. bulk_classify(db, limit) iteriert sequenziell ueber unklassifizierte Quellen. - API-Endpoints (alle hinter Auth, globale Quellen nur fuer org_admin): - GET /api/sources/classification/stats - GET /api/sources/classification/queue - POST /api/sources/{id}/classification/approve (proposed_ -> echte Felder) - POST /api/sources/{id}/classification/reject (proposed_* loeschen) - POST /api/sources/{id}/classification/reclassify (sofort, ~3-5s) - POST /api/sources/classification/bulk-classify (BackgroundTask) - scripts/migrate_sources_classification.py: CLI-Wrapper fuer Bulk-Migration zur einmaligen Erstbestueckung aller Bestandsquellen. Sample-Test auf Staging steht aus. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-07 18:46:54 +00:00
Claude Code	f4c0c930b8	fix(orchestrator): aktive Pipeline-Schritte beim Cancel mitschliessen Beim User-Cancel wurde nur refresh_log auf cancelled gesetzt, der zuletzt aktive refresh_pipeline_steps-Eintrag blieb verwaist. Der /api/incidents/<id>/pipeline-Endpoint liefert daraus dauerhaft "Schritt X laeuft" an die UI, auch lange nach dem Cancel. - pipeline_tracker.cancel_active_steps(): neuer Bulk-Helper, setzt alle noch active-Schritte eines refresh_log_id auf cancelled mit completed_at - _mark_refresh_cancelled holt die refresh_log_id, macht das refresh_log- Update wie bisher und ruft danach cancel_active_steps auf Reproduziert bei Lage 80 (Bjoern Hoecke), refresh_log 1273. Frontend- CSS kennt status-cancelled nicht, faellt auf den neutralen Default-Style zurueck (kein Spinner mehr, kein Haken, korrekt ent-hangen).	2026-05-06 23:40:39 +00:00
Claude Code	98c9da64b0	Umlaut-Normalisierung an drei Stellen + auch articles im QC Fix fuer ASCII-Umlaute in Headlines/Inhalten (Gespraeche statt Gespraeche). Zwei Quellen des Problems: 1. Quellen wie dpa-AFX, Telegram TASS/RIA liefern Headlines schon ASCII-fiziert 2. LLM-Uebersetzungen drift en gelegentlich zu ae/oe/ue trotz Prompt Aenderungen: - rss_parser.py: nach html_to_text auch normalize_german_umlauts auf title und summary anwenden (sicher, hunspell-Dict ignoriert englische Woerter wie Boeing/Business) - orchestrator.py:1418 Translation-INSERT: headline_de und content_de durch normalize_german_umlauts schicken (LLM-Drift abfangen) - post_refresh_qc.py: neue Funktion normalize_umlaut_articles als Sicher- heitsnetz analog zu normalize_umlaut_fields. Behandelt headline_de und content_de aller Artikel des Incidents; bei language=de zusaetzlich headline und content_original. Wird in run_post_refresh_qc nach normalize_umlaut_fields aufgerufen. Backfill: migrations/migrate_umlauts_2026-05-03.py (im Verwaltungs-Repo)	2026-05-02 23:26:19 +00:00
Claude Code	430541f49b	STAGING_MODE Env-Flag: kein Hard-Stop, kein Org-Switcher in Staging Wenn STAGING_MODE=1 (oder true/yes) in der .env gesetzt ist: - check_license() liefert immer unlimited_budget=True -> kein Token-Budget-Hard-Stop, egal was in der DB steht. - /api/auth/me liefert is_global_admin=False -> Frontend ruft _initOrgSwitcher nicht auf, Org-Switcher-Section bleibt versteckt. Nur in ~/AegisSight-Monitor-staging/.env gesetzt; Live-.env hat das Flag nicht, daher dort unverändertes Produktiv-Verhalten.	2026-05-02 22:51:27 +00:00
Claude Code	ee83f38edf	Token-Budget Hard-Stop + Banner bei aufgebrauchtem Budget - check_license() liefert jetzt unlimited_budget, credits_total, credits_used, read_only_reason. Bei nicht-unlimited UND credits_used >= credits_total wird status=budget_exceeded, read_only=True gesetzt. - require_writable_license blockiert mit 403 + X-License-Status-Header je nach Reason. - /api/auth/me liefert read_only_reason und unlimited_budget; credits_percent_used wird nicht mehr auf 100 gekappt (echte Prozente). - Frontend: Banner-Text dynamisch je nach reason (budget_exceeded/expired/...). Refresh-Button bei read_only deaktiviert + Tooltip. Globaler 403-Handler in api.js: bei X-License-Status -> Banner + Toast aktualisieren.	2026-05-02 20:16:25 +00:00
UserIsMH	62c0be64ee	Analysepipeline: Reihenfolge "Fakten prüfen" vor "Lagebild verfassen" Reihenfolge in der Pipeline-Anzeige getauscht — passt zur perspektivischen Backend-Umstellung (Faktencheck-Output soll als Kontext ins Lagebild einfließen, statt parallel zu generieren). Backend läuft aktuell noch parallel; sobald die sequenzielle Variante mit Kontext-Übergabe steht, stimmt die Anzeige mit dem realen Flow überein. Im 3x3-Snake-Layout liegt jetzt: Reihe 2: Relevanz bewerten → Orte erkennen → Fakten prüfen Reihe 3: Lagebild verfassen → Qualitätscheck → Benachrichtigen Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-01 21:59:46 +02:00
UserIsMH	7b5adccf2b	Analysepipeline: echte Umlaute und ASCII-Bindestriche Em-dashes und Umlaut-Umschreibungen aus den Pipeline-Aenderungen entfernt: Tooltip-Texte, HTML-Empty-State, JS-Kommentare, Count-Status-Platzhalter, Orchestrator-Kommentare und CSS-Kommentare. Anstelle von typografischen Gedankenstrichen werden jetzt Kommas oder Punkte gesetzt, "uebersprungen" -> "uebersprungen" mit echtem Umlaut, "laeuft" usw. analog. UI-Text "— Refresh starten" wird zu zwei Saetzen. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-01 14:16:28 +02:00
UserIsMH	3a346ba2ec	Analysepipeline: Visualisierung der Refresh-Schritte Neuer Tab "Analysepipeline" zwischen Faktencheck und Quellenuebersicht. Zeigt 9 Verarbeitungsschritte als n8n-artige Blockkette: Quellen sichten, Nachrichten sammeln, Doppeltes filtern, Relevanz bewerten, Orte erkennen, Lagebild verfassen, Fakten pruefen, Qualitaetscheck, Benachrichtigen. - Backend: refresh_pipeline_steps-Tabelle persistiert pro Refresh+Pass die Status- und Zahlen-Werte. pipeline_tracker.py kapselt Start/Done/Skip/Error inkl. WebSocket-Broadcast (Event-Typ pipeline_step). 9 Hooks im Orchestrator speisen die Anzeige. - API: GET /api/incidents/{id}/pipeline liefert Definition + letzten Stand (Zahlen aus letztem Refresh, Multi-Pass-Konsolidierung). - Frontend: pipeline.js rendert Vollbild-Blockkette mit pulsierendem Glow am aktiven Block, animierten Pfeilen bei Datenfluss, Haekchen am fertigen Block. Hover-Tooltip mit Erklaerung in Nutzersprache, Klick oeffnet Detail-Popup. Bei Research-Lagen leuchtet ein Schleifen-Pfeil pro Mehrfach-Durchlauf auf. Mini-Variante (nur Icons) im Refresh-Progress-Popup. - CSS: Light/Dark-Theme-fest, dezenter Circuit-Hintergrund (5% Opacity), Mobile-vertikale Stapelung unter 900px, prefers-reduced-motion respektiert. - Uebersprungene Schritte (z.B. Geoparsing ohne neue Artikel) werden ausgeblendet, brandneue Lagen ohne Refresh zeigen Hinweis. Tooltips bewusst in normaler Sprache ohne Internas (keine Modellnamen, keine Toolnamen, keine Phasen-Labels). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-01 13:53:44 +02:00
claude-dev	e8ac0d0c50	Block A: License-Check + Credits-Tracking fuer Enhance und Chat - Neuer Helper charge_usage_to_tenant() in services/license_service.py: UPSERT in token_usage_monthly und Credits-Abzug aus licenses.credits_used. Wiederverwendbar fuer alle Claude-Call-Verursacher. - Orchestrator: Inline-Buchungslogik (35 Zeilen) durch Helper-Aufruf ersetzt. - routers/incidents.py POST /enhance-description: require_writable_license statt get_current_user, db_dependency hinzugefuegt, Credits-Buchung mit source="enhance" nach jedem Claude-Call. - routers/chat.py POST /: analog require_writable_license + Credits-Buchung mit source="chat". _call_claude_chat() gibt jetzt zusaetzlich ClaudeUsage zurueck. Abgelaufene/gesperrte Lizenzen koennen damit keine Haiku-Calls mehr ausloesen, und alle Kosten werden konsistent auf Tenant-Ebene verbucht.	2026-04-23 17:49:32 +00:00
claude-dev	f05bd1a064	QC: Umlaut-Dict aus hunspell-de-de generieren (statt handkuratiert) Loest das Abdeckungs-Problem des handkuratierten Dicts (~300 Eintraege, ~95%). Neu: vollautomatisch erzeugtes Korpus-Dict aus hunspell-de-de mit 153.869 Eintraegen (>99% Abdeckung), plus schlankes Supplement fuer Komposita, die hunspell nicht liefert. Build-Skript (scripts/build_umlaut_dict.py): - ruft /usr/bin/unmunch gegen /usr/share/hunspell/de_DE.dic+aff auf - filtert Woerter mit echten Umlauten (ä/ö/ü/ß) - generiert je Wort die Umschreibungsform (ae/oe/ue/ss) + Capitalize - Mehrdeutigkeits-Check: skippt Paare wo die Umschreibung selbst ein gueltiges deutsches Wort ist (z. B. dass/daß, Masse/Maße, Busse/Buße) - Ergebnis: 153.869 Eintraege, 27 mehrdeutige Formen ausgefiltert - Alphabetisch sortiertes JSON (diff-freundlich) Laufzeit-Refactor (src/services/post_refresh_qc.py): - _UMLAUT_BASE Dict (handkuratiert) entfernt, dafuer JSON-Loader beim Modul-Import aus src/services/umlaut_dict.json - _MANUAL_SUPPLEMENT fuer Luecken (Konjunktiv saeen, Amtstitel- Komposita wie Aussenminister/Parlamentspraesident, Strassen- Komposita, Fuehrungs-Komposita) — ueberlagert Korpus-Dict - _UMLAUT_WHITELIST erweitert um englische Fremdwoerter (Boeing, Business, Access, Process, Message, Password, Miss, Boss, Goethe, Yahoo, Israel, Israels) - Regex-Strategie umgestellt: statt riesigem alternierenden Pattern ueber alle Keys jetzt Tokenizer (_WORD_PATTERN) + O(1) Dict-Lookup pro Wort. Deutlich performanter bei 150k+ Eintraegen. - normalize_german_umlauts() Signatur unveraendert - normalize_umlaut_fields() unveraendert - Einhaengung in run_post_refresh_qc() unveraendert Daten-Artefakt (src/services/umlaut_dict.json): - 4.88 MB alphabetisch sortiertes JSON - Im Repo committet zwecks Reproduzierbarkeit und kein hunspell- Laufzeit-Abhaengigkeit im Container Verwerfbarkeit voll erhalten: - git revert entfernt alle drei neuen Elemente - Bestand in DB bleibt repariert (korrektes Deutsch, kein Schaden) - hunspell-Paket kann bleiben oder mit apt purge entfernt werden Bootstrap-Rerun mit neuem Dict: - 7 Lagen aktualisiert, 306 zusaetzliche Ersetzungen - Lage #6 (Irankonflikt) von 140 ursprungs- und 15 Rest-Treffern nach voriger Runde jetzt auf 0 Hard-Hits - andere aktive Lagen insgesamt 8 verbleibende Rest-Treffer (spezielle Eigennamen, koennen bei Bedarf ins Supplement) Performance: - Dict-Load beim Modul-Import: ~100 ms - Gesamt Unit-Tests (11 Faelle): 161 ms - Refresh-Pfad unveraendert schnell: O(Wortzahl) mit Hashmap-Lookup	2026-04-18 21:17:46 +00:00
claude-dev	15a650bfc9	QC: Umlaut-Normalisierung + Prompt-Ergaenzung Drei unabhaengige Schutzschichten gegen falsche Umschreibungen (ae/oe/ue/ss statt ä/ö/ü/ß) im Lagebild: 1. Prompt-Ergaenzung in INCREMENTAL_ANALYSIS_PROMPT_TEMPLATE und INCREMENTAL_BRIEFING_PROMPT_TEMPLATE (analyzer.py): explizite Priorisierung, dass die Regel "echte UTF-8-Umlaute" Vorrang vor "bestehende Formulierungen beibehalten" hat. Adressiert den Fall, dass Claude beim inkrementellen Update Altlasten weitertraegt. 2. Deterministische Normalisierung in post_refresh_qc.py: - normalize_german_umlauts(text) - Regex mit Wortgrenzen, case- preserving, Whitelist-tauglich, ~140 Eintraege im Woerterbuch abgeleitet aus den 140 Hard-Hits in Lage #6 - normalize_umlaut_fields(db, incident_id) - laedt summary und latest_developments, normalisiert, schreibt nur bei Aenderungen zurueck (idempotent) - Eingehaengt in run_post_refresh_qc() nach dem Location-Check, Fehler stoppen die Pipeline nicht (identisches Muster wie bestehende Checks) 3. scripts/bootstrap_umlaut_repair.py - Einmal-Skript zur Bestandsbereinigung der bereits gespeicherten summary-Felder. Idempotent. Beim initialen Lauf auf Produktiv-DB: 14 Lagen aktualisiert, 431 Ersetzungen insgesamt, Lage #6 von 140 auf 15 Rest-Treffer reduziert. Whitelist (leer): aktuell kein Konflikt zwischen deutschen Ziel- Woertern und englischen Fremdwoertern. Kann bei Bedarf erweitert werden ohne Schema-Aenderung. Verifikation: - py_compile OK fuer alle drei Dateien - Service-Restart ohne Errors - Unit-Tests: positive Faelle ("Oeffnung der Strasse" -> 4 Ersetzungen), Whitelist ("Boeing liefert Business-Access" -> 0 Ersetzungen), Komposita ("Wasserstrasse", "Parlamentspraesident") korrekt - Bootstrap 2x ausgefuehrt (erster Lauf 288 Ersetzungen, zweiter 143 nach Dict-Erweiterung), kumulativ 431 Architektur bleibt dormant ohne Daten-Altlasten: wenn keine Lage Umschreibungen enthaelt, arbeitet normalize_umlaut_fields in <1ms und schreibt nichts. Kein Overhead im Refresh-Pfad.	2026-04-18 14:00:00 +00:00
Claude Dev	19da099583	feat: Kontextabhängige Karten-Kategorien 4 feste Farbstufen (primary/secondary/tertiary/mentioned) mit variablen Labels pro Lage, die von Haiku generiert werden. - DB: category_labels Spalte in incidents, alte Kategorien migriert (target->primary, response/retaliation->secondary, actor->tertiary) - Geoparsing: generate_category_labels() + neuer Prompt mit neuen Keys - QC: Kategorieprüfung auf neue Keys umgestellt - Orchestrator: Tuple-Rückgabe + Labels in DB speichern - API: category_labels im Locations- und Lagebild-Response - Frontend: Dynamische Legende aus API-Labels mit Fallback-Defaults - Migrationsskript für bestehende Lagen Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-15 15:04:02 +01:00
claude-dev	445f645936	feat: Post-Refresh QC auf Haiku umgestellt Faktencheck-Duplikate: Fuzzy-Vorfilter (Threshold 0.60) reduziert Kandidaten, Haiku clustert semantische Duplikate kontextbezogen. Karten-Locations: Haiku bewertet target-Kategorien anhand des Lage-Kontexts statt statischer Wortlisten. Kosten ca. 0.005-0.008 USD pro Check. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-10 21:49:50 +01:00
claude-dev	81a393fd4a	feat: Post-Refresh Quality Check fuer Faktenchecks und Karten-Locations Automatischer QC-Schritt nach jedem Refresh: - Erkennt inhaltliche Faktencheck-Duplikate via Fuzzy-Matching (Threshold 0.80) - Korrigiert falsch kategorisierte Karten-Locations (z.B. entfernte Laender als 'target') - Laeuft nach dem Faktencheck-Commit, vor den Notifications - Fehler im QC blockieren nicht den Refresh-Ablauf Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-10 21:41:45 +01:00
claude-dev	204422ced9	Fakten-Konsolidierung: Evidenz zusammenfuehren statt nur loeschen Beim Mergen von Duplikaten werden jetzt URLs und Quellen aus allen Duplikaten in den besten Fakt uebernommen, bevor die Duplikate entfernt werden. So gehen keine Belege verloren. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-08 22:03:25 +01:00
claude-dev	e2ea4eaaa0	Faktencheck-Deduplizierung und Auto-Resolve implementiert 3-Ebenen-System gegen Duplikate: 1. Pre-Dedup: LLM-Antwort wird vor DB-Insert dedupliziert (deduplicate_new_facts) 2. Auto-Resolve: Bestaetigte Fakten loesen automatisch stale developing/unconfirmed Fakten auf 3. Periodische Konsolidierung: Haiku clustert alle 6h semantische Duplikate und entfernt sie Verbessertes Claim-Matching: SequenceMatcher (70%) + Jaccard-Keyword-Overlap (30%) statt reinem SequenceMatcher. Threshold von 0.7 auf 0.75 erhoeht. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-08 21:59:50 +01:00
claude-dev	13143b9447	Fix: Duplikat-Vorschläge + Stale-Check nur für RSS-Feeds - Duplikat-Check basiert auf source_id+type statt exaktem Titel - add_source ohne source_id prüft per Domain-Match - Stale-Check überspringt web_sources (nur RSS-Feeds prüfen) Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-08 19:05:45 +01:00
claude-dev	5986d03209	Haiku-Suggester: source_id in Issues-Summary für korrekte Zuordnung Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-08 17:29:16 +01:00
claude-dev	40f2954811	Täglicher Quellen-Health-Check + Haiku-Vorschläge - Neue Tabellen: source_health_checks, source_suggestions - source_health.py: Prüft Erreichbarkeit, Feed-Validität, Aktualität, Duplikate - source_suggester.py: KI-gestützte Vorschläge via Claude Haiku - APScheduler Job: Automatischer Check täglich um 04:00 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-08 15:26:24 +01:00
claude-dev	a69352575d	Fix: Komplett auf Europe/Berlin + DB-Migration + Timer-Fix - ALLE Timestamps einheitlich Europe/Berlin (kein UTC mehr) - DB-Migration: 1704 bestehende Timestamps von UTC nach Berlin konvertiert - Auto-Refresh Timer Fix: ORDER BY id DESC statt completed_at DESC (verhindert falsche Sortierung bei gemischten Timestamp-Formaten) - started_at statt completed_at fuer Timer-Vergleich (konsistenter) - Manuelle Refreshes werden bei Intervall-Pruefung beruecksichtigt - Debug-Logging fuer Auto-Refresh Entscheidungen - astimezone() fuer Timestamps mit Offset-Info Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-07 02:56:51 +01:00
claude-dev	a8e9f34ff8	Fix: UTC fuer interne Timer, Berlin nur fuer Anzeige Korrektur: Alle DB-Timestamps (refresh_log, created_at, updated_at, auth, notifications) bleiben UTC fuer korrekte Timer-Vergleiche. Europe/Berlin nur fuer angezeigte Werte (Exporte, Prompts, API). Verhindert zu fruehes Ausloesen des Auto-Refresh-Timers. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-07 02:40:02 +01:00
claude-dev	706d0b49d6	Fix: Alle Timestamps einheitlich auf Europe/Berlin Zeitzone Inkonsistenz behoben: Manche Timestamps wurden in UTC, andere in Berlin-Zeit gespeichert. Das fuehrte zu Fehlern beim Auto-Refresh und Faktencheck, da Zeitvergleiche falsche Ergebnisse lieferten. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-07 02:37:30 +01:00
claude-dev	8312d24912	Initial commit: AegisSight-Monitor (OSINT-Monitoringsystem)	2026-03-04 17:53:18 +01:00

34 Commits