AegisSight-Monitor

Autor	SHA1	Nachricht	Datum
Claude Code	98c9da64b0	Umlaut-Normalisierung an drei Stellen + auch articles im QC Fix fuer ASCII-Umlaute in Headlines/Inhalten (Gespraeche statt Gespraeche). Zwei Quellen des Problems: 1. Quellen wie dpa-AFX, Telegram TASS/RIA liefern Headlines schon ASCII-fiziert 2. LLM-Uebersetzungen drift en gelegentlich zu ae/oe/ue trotz Prompt Aenderungen: - rss_parser.py: nach html_to_text auch normalize_german_umlauts auf title und summary anwenden (sicher, hunspell-Dict ignoriert englische Woerter wie Boeing/Business) - orchestrator.py:1418 Translation-INSERT: headline_de und content_de durch normalize_german_umlauts schicken (LLM-Drift abfangen) - post_refresh_qc.py: neue Funktion normalize_umlaut_articles als Sicher- heitsnetz analog zu normalize_umlaut_fields. Behandelt headline_de und content_de aller Artikel des Incidents; bei language=de zusaetzlich headline und content_original. Wird in run_post_refresh_qc nach normalize_umlaut_fields aufgerufen. Backfill: migrations/migrate_umlauts_2026-05-03.py (im Verwaltungs-Repo)	2026-05-02 23:26:19 +00:00
Claude Code	307f0a1868	RSS-Parser: HTML aus summary strippen vor Speicherung Ursache des Bugs: feedparser.entry.summary liefert bei vielen Quellen (Guardian, AP, Sueddeutsche, Golem, Bellingcat, ...) HTML-kodierten Text (<p>, <a>, <ul>, ...). Der Parser hat diesen 1:1 in articles.content_original und content_de gespeichert. Folge: - UI rendert HTML-Tags als Text in Timeline-Karten - KI-Agenten (analyzer, entity_extractor, factchecker) bekommen HTML-Muell als Analyse-Input -> schwaechere Ergebnisse - _is_german-Sprachheuristik wird durch Tags verzerrt - 1000-Zeichen-Cap wird durch Tags + Tracking-URLs verbraucht Fix: html_to_text aus feeds/transcript_extractors/_common.py wiederverwenden, strippt Tags + decodiert HTML-Entities (inkl. dt. Umlaute) + normalisiert Whitespace. Wird auf summary direkt nach entry.get angewandt -> betrifft sowohl Match-Logik (text-Variable) als auch INSERT (content_original/de). Backfill-Migration: migrations/migrate_html_strip_2026-05-03.py im Verwaltungs-Repo, behandelt bestehende DB-Eintraege rueckwirkend.	2026-05-02 23:13:32 +00:00
UserIsMH	a08df3d121	RSS-Parser: Match-Schwelle adaptiv (Bug 1 aus Buckelwal-Diagnose) Bisher musste eine Headline mindestens 2 der dynamisch generierten Suchworte enthalten, um den Match-Filter zu passieren. Bei thematisch engen Lagen (Bsp. "Buckelwal timmy") fielen damit echte Treffer wie "Transport mit Buckelwal erreicht dänische Gewässer..." durch, weil nur 1 Keyword (buckelwal) gematcht hat. Neue Heuristik: enthält der Text mindestens ein spezifisches Keyword (>=7 Zeichen, also keine kurzen Akteursnamen wie "iran" oder "trump"), reicht 1 Treffer. Bei nur kurzen, generischen Keywords gilt weiter die alte Schwelle (halb der Wörter, max. 2). Topic-Filter danach (Haiku) fängt False Positives. Damit kommen ZDF/tagesschau/n-tv-Headlines mit nur einem starken Begriff durch — der Hauptgrund, warum Lage 8 Buckelwal mit ZDF-Quelle am ersten Refresh 0 Artikel hatte. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-01 16:55:05 +02:00
claude-dev	5e19736a25	Per-User Domain-Ausschlüsse + Grundquellen-Schutz - Neue Tabelle user_excluded_domains für benutzerspezifische Ausschlüsse - Domain-Ausschlüsse wirken nur für den jeweiligen User, nicht org-weit - user_id wird durch die gesamte Pipeline geschleust (Orchestrator → Researcher → RSS-Parser) - Grundquellen (is_global) können nicht mehr bearbeitet/gelöscht werden im Frontend - Grundquelle-Badge bei globalen Quellen statt Edit/Delete-Buttons - Filter Von mir ausgeschlossen im Quellen-Modal Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-08 14:30:21 +01:00
claude-dev	7734eefd35	Dynamische Keyword-Extraktion fuer RSS-Filterung + min_matches-Fix - researcher.py: Neuer dedizierter Haiku-Call extract_dynamic_keywords() analysiert die letzten 30 Headlines und generiert 5 DE+EN Begriffspaare - orchestrator.py: Dynamische Keywords vor Feed-Selektion aus DB-Headlines - rss_parser.py: min_matches auf max 2 gedeckelt (vorher n/2, bei 10 Keywords = 5) - analyzer.py: Fettdruck-Anweisungen entfernt Vorher: 0 RSS-Treffer (min_matches=5 unerreichbar) Nachher: 22 RSS-Treffer (Tagesschau 11, Al Jazeera 5, BBC 4, NYT 2) Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-07 23:12:17 +01:00
claude-dev	536e7f585b	Feat: Claude-Keywords für RSS-Suche, Jahreszahlen-Filter, strikteres Matching - rss_researcher liefert jetzt Keywords zurück, die direkt für RSS-Suche genutzt werden - Neue _clean_search_words() filtert rein-numerische Begriffe (Jahreszahlen etc.) - Matching-Schwelle aufgerundet: bei 3 Keywords müssen mindestens 2 matchen Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-05 18:36:08 +01:00
claude-dev	ff4c54d9a8	Quellenvielfalt sicherstellen: Domain-Cap + Balance + Discovery-Verbesserungen - config.py: MAX_FEEDS_PER_DOMAIN=3, MAX_ARTICLES_PER_DOMAIN_RSS=10 - rss_parser.py: _apply_domain_cap() begrenzt Artikel pro Domain nach RSS-Fetch - orchestrator.py: Domain-Balance vor Feed-Selektion (max 3 Feeds/Domain), Domain-Cap in Background-Discovery - source_rules.py: article_count in get_feeds_with_metadata(), Content-Hash in _validate_feed() für Duplikat-Erkennung bei Discovery - researcher.py: QUELLENVIELFALT-Regel im Haiku Feed-Selektions-Prompt - DB: 52 WordPress-Redirect-Duplikate deaktiviert (netzpolitik.org, bashinho.de) Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-04 23:25:04 +01:00
claude-dev	3d9a827bc8	Inkrementelle Analyse + Token-Optimierung + Relevanz-Scoring TOKEN-OPTIMIERUNG: - Inkrementelle Analyse: Folge-Refreshes senden nur noch das bisherige Lagebild + neue Artikel an Claude (statt alle Artikel erneut). Spart ~60-70% Tokens bei Lagen mit vielen Artikeln. - Inkrementeller Faktencheck: Bestehende Fakten als Zusammenfassung, nur neue Artikel werden vollstaendig geprueft. - Modell-Steuerung: Feed-Selektion nutzt jetzt Haiku (CLAUDE_MODEL_FAST) statt Opus. Spart ~50-70% bei Feed-Auswahl. - Set-basierte DB-Deduplizierung: Bestehende URLs/Headlines einmal in Sets geladen statt N*M einzelne DB-Queries pro Artikel. INHALTLICHE VERBESSERUNGEN: - Relevanz-Scoring: Artikel nach Keyword-Dichte (40%), Quellen-Reputation (30%), Inhaltstiefe (20%), RSS-Score (10%). - Flexibles RSS-Matching: min. Haelfte der Keywords statt alle. RSS-Artikel bekommen einen relevance_score. - Fuzzy Claim-Matching: SequenceMatcher (0.7) statt exakter String-Vergleich. Verhindert Duplikat-Akkumulation. - Translation-Fix: Nur gueltige DB-IDs (isinstance int). - Researcher: WebFetch fuer Top-Artikel, erweiterte Zusammenfassungen. DATEIEN: - config.py: CLAUDE_MODEL_FAST - claude_client.py: model-Parameter - researcher.py: Haiku Feed-Selektion, erweiterte Prompts - analyzer.py: Inkrementelle Analyse + analyze_incremental() - factchecker.py: Inkrementeller Check + Fuzzy-Matching - orchestrator.py: Set-Dedup, Relevanz-Scoring, inkrementeller Flow - rss_parser.py: Flexibles Keyword-Matching + relevance_score	2026-03-04 20:22:47 +01:00
claude-dev	8312d24912	Initial commit: AegisSight-Monitor (OSINT-Monitoringsystem)	2026-03-04 17:53:18 +01:00

9 Commits