Sprach-aware Keyword-Matching f�r nicht-lateinische Quellen #27
In neuem Issue referenzieren
Einen Benutzer sperren
Branch "develop" löschen
Das Löschen eines Branches ist permanent. Obwohl der Branch für eine kurze Zeit weiter existieren könnte, kann diese Aktion in den meisten Fällen NICHT rückgängig gemacht werden. Fortfahren?
Behebt das Problem, dass japanische RSS-Quellen (24 Feeds) f�r Lage 96 keine Treffer lieferten, weil Haiku nur DE/EN/Romaji-Keywords erzeugte und CJK-Headlines damit nie matchten.
Bisher generierte Haiku Keywords nur in DE/EN/Romaji. Japanische RSS-Feeds (z.B. MOD-GNews mit "防衛省・自衛隊の宇宙政策") matchten daher nie, weil "jieitai" ≠ "自衛隊". Arabische/persische Telegram-Channels matchten nur durch Zufall (lateinische Eigennamen in Hashtags/URLs). Drei zusammenhängende Änderungen: 1. get_feeds_with_metadata liefert primary_language pro Feed mit. 2. FEED_SELECTION_PROMPT_TEMPLATE und KEYWORD_EXTRACTION_PROMPT verlangen sprach-gruppierte Keywords ({de:[...], en:[...], ja:[...], ru:[...], ...}). "en" enthält lateinische Eigennamen (universell). Andere Sprachen werden nur gegen Feeds derselben Sprache gematcht. 3. RSS- und Telegram-Parser kombinieren pro Feed/Channel die "en"-Universalbegriffe mit den Keywords der Quellsprache. Die Spezifik-Schwelle (1-Treffer-Match) greift jetzt auch ab 3 Zeichen bei Non-ASCII (CJK, Arabisch, Kyrillisch). Backward-kompatibel: flache Keyword-Listen werden weiter akzeptiert. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>