Sprach-aware Keyword-Matching f�r nicht-lateinische Quellen #27

Zusammengeführt
IntelSight_Admin hat 1 Commits von develop nach main 2026-05-21 00:31:30 +02:00 zusammengeführt
Mitwirkender

Behebt das Problem, dass japanische RSS-Quellen (24 Feeds) f�r Lage 96 keine Treffer lieferten, weil Haiku nur DE/EN/Romaji-Keywords erzeugte und CJK-Headlines damit nie matchten.

  • get_feeds_with_metadata liefert primary_language mit
  • Haiku liefert Keywords pro Sprache (de/en/ja/ru/ar/he/fa/zh/ko)
  • RSS- und Telegram-Parser matchen pro Feed/Channel mit en + Quellsprache
  • Spezifik-Schwelle f�r 1-Treffer-Match: =7 Zeichen Latin oder =3 Zeichen Non-ASCII
Behebt das Problem, dass japanische RSS-Quellen (24 Feeds) f�r Lage 96 keine Treffer lieferten, weil Haiku nur DE/EN/Romaji-Keywords erzeugte und CJK-Headlines damit nie matchten. - get_feeds_with_metadata liefert primary_language mit - Haiku liefert Keywords pro Sprache (de/en/ja/ru/ar/he/fa/zh/ko) - RSS- und Telegram-Parser matchen pro Feed/Channel mit en + Quellsprache - Spezifik-Schwelle f�r 1-Treffer-Match: =7 Zeichen Latin oder =3 Zeichen Non-ASCII
IntelSight_Admin hat 1 Commit 2026-05-21 00:31:25 +02:00 hinzugefügt
Bisher generierte Haiku Keywords nur in DE/EN/Romaji. Japanische RSS-Feeds
(z.B. MOD-GNews mit "防衛省・自衛隊の宇宙政策") matchten daher nie, weil
"jieitai" ≠ "自衛隊". Arabische/persische Telegram-Channels matchten nur
durch Zufall (lateinische Eigennamen in Hashtags/URLs).

Drei zusammenhängende Änderungen:

1. get_feeds_with_metadata liefert primary_language pro Feed mit.
2. FEED_SELECTION_PROMPT_TEMPLATE und KEYWORD_EXTRACTION_PROMPT verlangen
   sprach-gruppierte Keywords ({de:[...], en:[...], ja:[...], ru:[...], ...}).
   "en" enthält lateinische Eigennamen (universell). Andere Sprachen werden
   nur gegen Feeds derselben Sprache gematcht.
3. RSS- und Telegram-Parser kombinieren pro Feed/Channel die "en"-Universalbegriffe
   mit den Keywords der Quellsprache. Die Spezifik-Schwelle (1-Treffer-Match)
   greift jetzt auch ab 3 Zeichen bei Non-ASCII (CJK, Arabisch, Kyrillisch).

Backward-kompatibel: flache Keyword-Listen werden weiter akzeptiert.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
IntelSight_Admin hat Commit 10606dba95 in main 2026-05-21 00:31:30 +02:00 gemerged
Anmelden, um an der Diskussion teilzunehmen.
Keine Reviewer
Kein Label
1 Beteiligte
Nachrichten
Fällig am
Kein Fälligkeitsdatum gesetzt.
Abhängigkeiten

Keine Abhängigkeiten gesetzt.

Referenz: AegisSight/AegisSight-Monitor#27