AegisSight-Monitor

Datei suchen

Claude Code 307f0a1868 RSS-Parser: HTML aus summary strippen vor Speicherung

Ursache des Bugs: feedparser.entry.summary liefert bei vielen Quellen
(Guardian, AP, Sueddeutsche, Golem, Bellingcat, ...) HTML-kodierten Text
(<p>, <a>, <ul>, ...). Der Parser hat diesen 1:1 in articles.content_original
und content_de gespeichert. Folge:
- UI rendert HTML-Tags als Text in Timeline-Karten
- KI-Agenten (analyzer, entity_extractor, factchecker) bekommen HTML-Muell
  als Analyse-Input -> schwaechere Ergebnisse
- _is_german-Sprachheuristik wird durch Tags verzerrt
- 1000-Zeichen-Cap wird durch Tags + Tracking-URLs verbraucht

Fix: html_to_text aus feeds/transcript_extractors/_common.py wiederverwenden,
strippt Tags + decodiert HTML-Entities (inkl. dt. Umlaute) + normalisiert
Whitespace. Wird auf summary direkt nach entry.get angewandt -> betrifft
sowohl Match-Logik (text-Variable) als auch INSERT (content_original/de).

Backfill-Migration: migrations/migrate_html_strip_2026-05-03.py im
Verwaltungs-Repo, behandelt bestehende DB-Eintraege rueckwirkend.

2026-05-02 23:13:32 +00:00

scripts

QC: Umlaut-Dict aus hunspell-de-de generieren (statt handkuratiert)

2026-04-18 21:17:46 +00:00

src

RSS-Parser: HTML aus summary strippen vor Speicherung

2026-05-02 23:13:32 +00:00

.gitignore

WICHTIG: DB_PATH per ENV ueberschreibbar; data-Symlink aus Repo entfernt

2026-04-26 19:42:33 +00:00

CLAUDE.md

CLAUDE.md: Auto-Deploy + Promote-UI + Live-systemd dokumentiert