fix: URL-Verifizierung fuer WebSearch-Ergebnisse

- Prompt-Verbesserung: Claude muss exakte URLs aus WebSearch kopieren, keine konstruierten URLs - Neue _verify_article_urls() Funktion im Orchestrator - HEAD-Request auf jede WebSearch-URL, GET-Fallback bei 405 - Bei 404/unerreichbar: Ersetzung durch Google-Suchlink (site:domain headline) - Nur WebSearch-URLs werden geprueft, RSS-URLs sind bereits verifiziert
2026-03-17 10:22:01 +01:00
Commit 474e2beca9
--- a/src/agents/orchestrator.py
+++ b/src/agents/orchestrator.py
@@ -6,7 +6,9 @@ import re
 from datetime import datetime
 from config import TIMEZONE
 from typing import Optional
-from urllib.parse import urlparse, urlunparse
+from urllib.parse import urlparse, urlunparse, quote_plus
+
+import httpx

 from agents.claude_client import UsageAccumulator
 from agents.factchecker import find_matching_claim, deduplicate_new_facts, TWOPHASE_MIN_FACTS
@@ -132,6 +134,80 @@ def _score_relevance(article: dict, search_words: list[str] = None) -> float:
    return min(1.0, score)


+
+async def _verify_article_urls(
+    articles: list[dict],
+    concurrency: int = 10,
+    timeout: float = 8.0,
+) -> list[dict]:
+    """Prueft WebSearch-URLs auf Erreichbarkeit. Ersetzt unerreichbare URLs durch Suchlinks."""
+    if not articles:
+        return []
+
+    sem = asyncio.Semaphore(concurrency)
+    results: list[dict | None] = [None] * len(articles)
+
+    async def _check(idx: int, article: dict, client: httpx.AsyncClient):
+        url = article.get("source_url", "").strip()
+        if not url:
+            results[idx] = article  # Kein URL -> behalten (wird eh nicht verlinkt)
+            return
+        async with sem:
+            try:
+                resp = await client.head(url)
+                if resp.status_code == 405:
+                    # Manche Server unterstuetzen kein HEAD
+                    resp = await client.get(url, headers={"Range": "bytes=0-0"})
+                if 200 <= resp.status_code < 400:
+                    results[idx] = article
+                    return
+                # 404 oder anderer Fehler -> Fallback-Suchlink
+                logger.info(f"URL-Verifizierung: {resp.status_code} fuer {url}")
+            except Exception as e:
+                logger.debug(f"URL-Verifizierung fehlgeschlagen fuer {url}: {e}")
+
+            # Fallback: Google-Suchlink aus Headline + Source-Domain
+            headline = article.get("headline", "")
+            source = article.get("source", "")
+            domain = ""
+            try:
+                from urllib.parse import urlparse as _urlparse
+                domain = _urlparse(url).netloc
+            except Exception:
+                pass
+            if headline:
+                search_query = f"site:{domain} {headline}" if domain else f"{source} {headline}"
+                fallback_url = f"https://www.google.com/search?q={quote_plus(search_query)}"
+                article_copy = dict(article)
+                article_copy["source_url"] = fallback_url
+                article_copy["_url_repaired"] = True
+                results[idx] = article_copy
+                logger.info(f"URL-Fallback: {url} -> Google-Suche fuer \"{headline[:60]}...\"")
+            else:
+                results[idx] = article  # Kein Headline -> Original behalten
+
+    async with httpx.AsyncClient(
+        timeout=timeout,
+        follow_redirects=True,
+        headers={"User-Agent": "Mozilla/5.0 (compatible; AegisSight-Monitor/1.0)"},
+    ) as client:
+        await asyncio.gather(*[_check(i, a, client) for i, a in enumerate(articles)])
+
+    verified = [r for r in results if r is not None]
+    repaired = sum(1 for r in verified if r.get("_url_repaired"))
+    ok = len(verified) - repaired
+
+    if repaired > 0:
+        logger.warning(
+            f"URL-Verifizierung: {ok} OK, {repaired} durch Suchlinks ersetzt "
+            f"(von {len(articles)} WebSearch-Artikeln)"
+        )
+    else:
+        logger.info(f"URL-Verifizierung: Alle {len(articles)} WebSearch-URLs erreichbar")
+
+    return verified
+
+
 async def _background_discover_sources(articles: list[dict]):
    """Background-Task: Registriert seriöse, unbekannte Quellen aus Recherche-Ergebnissen."""
    from database import get_db
@@ -692,6 +768,10 @@ class AgentOrchestrator:
            (search_results, search_usage) = pipeline_results[1]
            telegram_articles = pipeline_results[2][0] if include_telegram else []

+            # URL-Verifizierung nur fuer WebSearch-Ergebnisse (RSS-URLs sind bereits verifiziert)
+            if search_results:
+                search_results = await _verify_article_urls(search_results)
+
            if rss_feed_usage:
                usage_acc.add(rss_feed_usage)
            if search_usage:
--- a/src/agents/researcher.py
+++ b/src/agents/researcher.py
@@ -21,6 +21,7 @@ REGELN:
 - KEINE Boulevardmedien (Bild, Sun, Daily Mail etc.)
 {language_instruction}
 - Faktenbasiert und neutral - keine Spekulationen
+- KRITISCH für source_url: Kopiere die EXAKTE URL aus den WebSearch-Ergebnissen. Erfinde oder konstruiere NIEMALS URLs aus Mustern oder Erinnerung. Wenn du die exakte URL eines Artikels nicht aus den Suchergebnissen hast, lass diesen Artikel komplett weg.
 - Nutze removepaywalls.com für Paywall-geschützte Artikel (z.B. Spiegel+, Zeit+, SZ+): https://www.removepaywalls.com/search?url=ARTIKEL_URL
 - Nutze WebFetch um die 3-5 wichtigsten Artikel vollständig abzurufen und zusammenzufassen

@@ -82,6 +83,7 @@ AUSSCHLUSS:
 - KEIN Social Media (Twitter/X, Facebook, Instagram, TikTok, Reddit)
 - KEINE Boulevardmedien (Bild, Sun, Daily Mail etc.)
 - KEINE Meinungsblogs ohne Quellenbelege
+- KEINE erfundenen oder konstruierten URLs — gib bei source_url NUR die EXAKTE URL zurueck, die WebSearch tatsaechlich angezeigt hat. Wenn du die URL nicht aus den Suchergebnissen kopieren kannst, lass den Artikel weg.

 Gib die Ergebnisse AUSSCHLIESSLICH als JSON-Array zurück, ohne Erklärungen davor oder danach.
 Jedes Element hat diese Felder: