AegisSight-Monitor

Datei suchen

UserIsMH 3345743aa5 feat(rss/telegram): sprach-aware Keyword-Matching für nicht-lateinische Quellen

Bisher generierte Haiku Keywords nur in DE/EN/Romaji. Japanische RSS-Feeds
(z.B. MOD-GNews mit "防衛省・自衛隊の宇宙政策") matchten daher nie, weil
"jieitai" ≠ "自衛隊". Arabische/persische Telegram-Channels matchten nur
durch Zufall (lateinische Eigennamen in Hashtags/URLs).

Drei zusammenhängende Änderungen:

1. get_feeds_with_metadata liefert primary_language pro Feed mit.
2. FEED_SELECTION_PROMPT_TEMPLATE und KEYWORD_EXTRACTION_PROMPT verlangen
   sprach-gruppierte Keywords ({de:[...], en:[...], ja:[...], ru:[...], ...}).
   "en" enthält lateinische Eigennamen (universell). Andere Sprachen werden
   nur gegen Feeds derselben Sprache gematcht.
3. RSS- und Telegram-Parser kombinieren pro Feed/Channel die "en"-Universalbegriffe
   mit den Keywords der Quellsprache. Die Spezifik-Schwelle (1-Treffer-Match)
   greift jetzt auch ab 3 Zeichen bei Non-ASCII (CJK, Arabisch, Kyrillisch).

Backward-kompatibel: flache Keyword-Listen werden weiter akzeptiert.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-05-21 00:29:49 +02:00

scripts

feat(sources): PDF-Dokumente als neuer Quellentyp pdf_document

2026-05-16 23:21:50 +00:00

src

feat(rss/telegram): sprach-aware Keyword-Matching für nicht-lateinische Quellen

2026-05-21 00:29:49 +02:00

.gitignore

WICHTIG: DB_PATH per ENV ueberschreibbar; data-Symlink aus Repo entfernt

2026-04-26 19:42:33 +00:00

CLAUDE.md

CLAUDE.md: Auto-Deploy + Promote-UI + Live-systemd dokumentiert