Sprach-aware Keyword-Matching f�r nicht-lateinische Quellen #27

IntelSight_Admin · 2026-05-21T00:31:24+02:00

2026-05-21 00:31:24 +02:00

kommentiert

Mitwirkender

Behebt das Problem, dass japanische RSS-Quellen (24 Feeds) f�r Lage 96 keine Treffer lieferten, weil Haiku nur DE/EN/Romaji-Keywords erzeugte und CJK-Headlines damit nie matchten.

get_feeds_with_metadata liefert primary_language mit
Haiku liefert Keywords pro Sprache (de/en/ja/ru/ar/he/fa/zh/ko)
RSS- und Telegram-Parser matchen pro Feed/Channel mit en + Quellsprache
Spezifik-Schwelle f�r 1-Treffer-Match: =7 Zeichen Latin oder =3 Zeichen Non-ASCII

Behebt das Problem, dass japanische RSS-Quellen (24 Feeds) f�r Lage 96 keine Treffer lieferten, weil Haiku nur DE/EN/Romaji-Keywords erzeugte und CJK-Headlines damit nie matchten. - get_feeds_with_metadata liefert primary_language mit - Haiku liefert Keywords pro Sprache (de/en/ja/ru/ar/he/fa/zh/ko) - RSS- und Telegram-Parser matchen pro Feed/Channel mit en + Quellsprache - Spezifik-Schwelle f�r 1-Treffer-Match: =7 Zeichen Latin oder =3 Zeichen Non-ASCII

IntelSight_Admin hat 1 Commit 2026-05-21 00:31:25 +02:00 hinzugefügt

feat(rss/telegram): sprach-aware Keyword-Matching für nicht-lateinische Quellen 3345743aa5

Bisher generierte Haiku Keywords nur in DE/EN/Romaji. Japanische RSS-Feeds
(z.B. MOD-GNews mit "防衛省・自衛隊の宇宙政策") matchten daher nie, weil
"jieitai" ≠ "自衛隊". Arabische/persische Telegram-Channels matchten nur
durch Zufall (lateinische Eigennamen in Hashtags/URLs).

Drei zusammenhängende Änderungen:

1. get_feeds_with_metadata liefert primary_language pro Feed mit.
2. FEED_SELECTION_PROMPT_TEMPLATE und KEYWORD_EXTRACTION_PROMPT verlangen
   sprach-gruppierte Keywords ({de:[...], en:[...], ja:[...], ru:[...], ...}).
   "en" enthält lateinische Eigennamen (universell). Andere Sprachen werden
   nur gegen Feeds derselben Sprache gematcht.
3. RSS- und Telegram-Parser kombinieren pro Feed/Channel die "en"-Universalbegriffe
   mit den Keywords der Quellsprache. Die Spezifik-Schwelle (1-Treffer-Match)
   greift jetzt auch ab 3 Zeichen bei Non-ASCII (CJK, Arabisch, Kyrillisch).

Backward-kompatibel: flache Keyword-Listen werden weiter akzeptiert.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

IntelSight_Admin hat Commit 10606dba95 in main 2026-05-21 00:31:30 +02:00 gemerged

IntelSight_Admin hat dieses Issue

2026-05-21 00:31:30 +02:00

aus einem Commit referenziert

Sprach-aware Keyword-Matching (#27)

IntelSight_Admin hat dieses Issue

2026-05-21 19:05:55 +02:00

aus einem Commit referenziert

feat(articles): headline_en persistieren + Sprache aus Quell-Konfig übernehmen

Anmelden, um an der Diskussion teilzunehmen.