Recall: dynamische Google-News-Volltext-Suchfeeds #33

Zusammengeführt
IntelSight_Admin hat 1 Commits von develop nach main 2026-05-22 01:02:58 +02:00 zusammengeführt
Mitwirkender

Behebt das Recall-Problem (Precision hoch, Recall niedrig). Pro Refresh wird ein Google-News-Volltext-Suchfeed je Sprache gebaut, statt nur feste site:-Feeds. Bei der Qilin-Test-Lage: 20 Kandidaten vorher vs. 49 GNews-Treffer.

Behebt das Recall-Problem (Precision hoch, Recall niedrig). Pro Refresh wird ein Google-News-Volltext-Suchfeed je Sprache gebaut, statt nur feste site:-Feeds. Bei der Qilin-Test-Lage: 20 Kandidaten vorher vs. 49 GNews-Treffer.
IntelSight_Admin hat 1 Commit 2026-05-22 01:02:58 +02:00 hinzugefügt
Recall-Problem: Die Pipeline durchsuchte nur ~28 feste site:-RSS-Feeds plus
Claude-WebSearch. Japanische Security-Vendor-Blogs, Fachportale und
Regionalmedien (Cybertrust, ITmedia, INTERNET Watch, Reuters Japan ...)
tauchten in keinem festen Feed auf. Bei der Test-Lage "Qilin Ransomware
Japan" fand die Pipeline 20 Kandidaten — eine generische Google-News-JP-
Suche zum selben Thema liefert 49.

Fix: researcher.build_news_search_feeds baut pro Refresh einen Google-News-
Volltext-Suchfeed je Sprache (news.google.com/rss/search?q=keywords&hl=..&gl=..).
Query = Top-4-Keywords der jeweiligen Sprache aus der Keyword-Extraktion.
Der Orchestrator haengt diese Feeds an die selektierten site:-Feeds an; sie
laufen durch dieselbe Pipeline (Keyword-Match, Pre-Topic-Translate,
Topic-Filter). Precision bleibt, Recall steigt.

- researcher.py: build_news_search_feeds + _GNEWS_LOCALE-Tabelle.
- orchestrator._rss_pipeline: Suchfeeds aus source_language_whitelist
  (jp_demo: ['ja']) bzw. output+research_language (normale Orgs) gebaut
  und an selected_feeds angehaengt.
- rss_parser._apply_domain_cap: Suchfeeds (domain 'google-news-search-<lang>')
  bekommen Cap 25 statt 10 — sie sind der Recall-Treiber, Topic-Filter
  uebernimmt die Precision.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
IntelSight_Admin hat Commit 14b98b59e0 in main 2026-05-22 01:02:58 +02:00 gemerged
IntelSight_Admin hat dieses Issue 2026-05-22 01:02:59 +02:00 aus einem Commit referenziert
Anmelden, um an der Diskussion teilzunehmen.
Keine Reviewer
Kein Label
1 Beteiligte
Nachrichten
Fällig am
Kein Fälligkeitsdatum gesetzt.
Abhängigkeiten

Keine Abhängigkeiten gesetzt.

Referenz: AegisSight/AegisSight-Monitor#33