Recency Frische-Suchfeed (#36)

2026-05-22 02:33:07 +02:00
Commit f1200743e6
--- a/src/agents/orchestrator.py
+++ b/src/agents/orchestrator.py
@@ -932,11 +932,21 @@ class AgentOrchestrator:
                        _gnews_langs = list(source_lang_whitelist)
                    else:
                        _gnews_langs = list({output_language_iso, research_language_iso})
                    # Zwei Sets: ein Kontext-Feed (alle Zeiten) + ein Frische-Feed
                    # (when:14d). Der Frische-Feed garantiert, dass das aktuelle
                    # Bild eingefangen wird, auch wenn aeltere Artikel relevanter
                    # ranken. Beide laufen durch dieselbe Pipeline; Dedup entfernt
                    # Ueberschneidungen.
                    _gnews_feeds = build_news_search_feeds(keywords, _gnews_langs)
-                    if _gnews_feeds:
+                    _gnews_recent = build_news_search_feeds(keywords, _gnews_langs, recency_days=14)
-                        logger.info(f"Google-News-Suchfeeds ergaenzt: {len(_gnews_feeds)}")
+                    _all_gnews = _gnews_feeds + _gnews_recent
                    if _all_gnews:
                        logger.info(
                            f"Google-News-Suchfeeds ergaenzt: {len(_gnews_feeds)} Kontext "
                            f"+ {len(_gnews_recent)} Frische (when:14d)"
                        )
                    articles = await rss_parser.search_feeds_selective(
-                        title, selected_feeds + _gnews_feeds, keywords=keywords,
+                        title, selected_feeds + _all_gnews, keywords=keywords,
                    )
                else:
                    articles = await rss_parser.search_feeds(title, international=international, tenant_id=tenant_id, keywords=keywords, user_id=user_id)
--- a/src/agents/researcher.py
+++ b/src/agents/researcher.py
@@ -30,6 +30,7 @@ def build_news_search_feeds(
    keywords_by_lang: dict | list | None,
    languages: list[str],
    max_keywords: int = 4,
    recency_days: int | None = None,
 ) -> list[dict]:
    """Baut dynamische Google-News-Volltext-Such-Feeds pro Sprache.
@@ -44,6 +45,9 @@ def build_news_search_feeds(
        keywords_by_lang: Sprach-Dict {iso: [keyword,...]} aus der Keyword-Extraktion.
        languages: ISO-Codes, fuer die ein Suchfeed gebaut werden soll.
        max_keywords: wie viele (spezifischste) Keywords in die Such-Query gehen.
        recency_days: wenn gesetzt, wird der Google-News-Operator "when:Nd" an die
            Query gehaengt — der Feed liefert dann nur Artikel der letzten N Tage.
            Fuer "Frische-Suchfeeds", die das aktuelle Bild garantiert einfangen.
    Returns:
        Liste von Feed-Config-Dicts (kompatibel mit RSSParser._fetch_feed).
@@ -88,28 +92,38 @@ def build_news_search_feeds(
        if not deduped:
            continue
        query = " ".join(deduped)
-        if not query or query in seen_queries:
+        # when:Nd-Operator anhaengen (Google-News-Zeitfilter)
        effective_query = query
        if recency_days and recency_days > 0:
            effective_query = f"{query} when:{recency_days}d"
        if not effective_query or effective_query in seen_queries:
            continue
-        seen_queries.add(query)
+        seen_queries.add(effective_query)
        hl, gl = locale
        ceid_lang = hl.split("-")[0]
        url = (
            "https://news.google.com/rss/search?q="
-            + urllib.parse.quote(query)
+            + urllib.parse.quote(effective_query)
            + f"&hl={hl}&gl={gl}&ceid={gl}:{ceid_lang}"
        )
        if recency_days and recency_days > 0:
            name = f"Google News Suche ({lang_key}, letzte {recency_days}d): {query}"
            domain = f"google-news-search-{lang_key}-recent"
        else:
            name = f"Google News Suche ({lang_key}): {query}"
            domain = f"google-news-search-{lang_key}"
        feeds.append({
-            "name": f"Google News Suche ({lang_key}): {query}",
+            "name": name,
            "url": url,
            # Eigene Domain-Gruppe, damit der Domain-Cap die Such-Feeds NICHT mit
            # den site:-Google-News-Feeds in einen Topf wirft.
-            "domain": f"google-news-search-{lang_key}",
+            "domain": domain,
            "primary_language": lang_key,
            "category": "international",
            "media_type": "",
        })
-        logger.info("Google-News-Suchfeed (%s): q=%r", lang_key, query)
+        logger.info("Google-News-Suchfeed (%s): q=%r", lang_key, effective_query)
    return feeds
--- a/src/feeds/rss_parser.py
+++ b/src/feeds/rss_parser.py
@@ -218,14 +218,33 @@ class RSSParser:
                if match_count >= min_matches:
                    published = None
                    published_dt = None
                    if hasattr(entry, "published_parsed") and entry.published_parsed:
                        try:
-                            published = datetime(*entry.published_parsed[:6], tzinfo=timezone.utc).astimezone(TIMEZONE).isoformat()
+                            published_dt = datetime(*entry.published_parsed[:6], tzinfo=timezone.utc)
                            published = published_dt.astimezone(TIMEZONE).isoformat()
                        except (TypeError, ValueError):
                            pass
                    # Relevanz-Score: Anteil der gematchten Suchworte (0.0-1.0)
                    relevance_score = match_count / len(search_words) if search_words else 0.0
                    # Aktualitaets-Bonus/Malus: frische Artikel sollen den
                    # Domain-Cap (sortiert nach relevance_score) ueberleben und
                    # nicht von Monate alten verdraengt werden. Damit faengt die
                    # Pipeline das aktuelle Bild ein. Nur adhoc-Pfad — research
                    # nutzt diesen Code nicht.
                    if published_dt is not None:
                        age_days = (datetime.now(timezone.utc) - published_dt).days
                        if age_days <= 3:
                            relevance_score += 0.35
                        elif age_days <= 14:
                            relevance_score += 0.20
                        elif age_days <= 60:
                            relevance_score += 0.05
                        elif age_days > 365:
                            relevance_score -= 0.30
                        elif age_days > 180:
                            relevance_score -= 0.15
                    # Bei Google-News-Feeds: echten Publisher aus <source>-Tag holen
                    article_source = name