fix: URL-Verifizierung fuer WebSearch-Ergebnisse

- Prompt-Verbesserung: Claude muss exakte URLs aus WebSearch kopieren, keine konstruierten URLs - Neue _verify_article_urls() Funktion im Orchestrator - HEAD-Request auf jede WebSearch-URL, GET-Fallback bei 405 - Bei 404/unerreichbar: Ersetzung durch Google-Suchlink (site:domain headline) - Nur WebSearch-URLs werden geprueft, RSS-URLs sind bereits verifiziert
2026-03-17 10:22:01 +01:00
Commit 474e2beca9
--- a/src/agents/researcher.py
+++ b/src/agents/researcher.py
@@ -21,6 +21,7 @@ REGELN:
 - KEINE Boulevardmedien (Bild, Sun, Daily Mail etc.)
 {language_instruction}
 - Faktenbasiert und neutral - keine Spekulationen
+- KRITISCH für source_url: Kopiere die EXAKTE URL aus den WebSearch-Ergebnissen. Erfinde oder konstruiere NIEMALS URLs aus Mustern oder Erinnerung. Wenn du die exakte URL eines Artikels nicht aus den Suchergebnissen hast, lass diesen Artikel komplett weg.
 - Nutze removepaywalls.com für Paywall-geschützte Artikel (z.B. Spiegel+, Zeit+, SZ+): https://www.removepaywalls.com/search?url=ARTIKEL_URL
 - Nutze WebFetch um die 3-5 wichtigsten Artikel vollständig abzurufen und zusammenzufassen

@@ -82,6 +83,7 @@ AUSSCHLUSS:
 - KEIN Social Media (Twitter/X, Facebook, Instagram, TikTok, Reddit)
 - KEINE Boulevardmedien (Bild, Sun, Daily Mail etc.)
 - KEINE Meinungsblogs ohne Quellenbelege
+- KEINE erfundenen oder konstruierten URLs — gib bei source_url NUR die EXAKTE URL zurueck, die WebSearch tatsaechlich angezeigt hat. Wenn du die URL nicht aus den Suchergebnissen kopieren kannst, lass den Artikel weg.

 Gib die Ergebnisse AUSSCHLIESSLICH als JSON-Array zurück, ohne Erklärungen davor oder danach.
 Jedes Element hat diese Felder: