From f22c8dbc618484ec34b588e79e93132a6097844f Mon Sep 17 00:00:00 2001 From: Claude Code Date: Sat, 9 May 2026 05:00:11 +0000 Subject: [PATCH] fix: removepaywalls.com -> removepaywall.com (Singular ist die echte Domain) User-Korrektur: die echte Service-Domain heisst removepaywall.com (Singular). removepaywalls.com (Plural) liefert HTTP 403 - vermutlich nicht der gleiche Service oder gar nicht mehr existent. Betrifft: - services/source_health.py: REMOVEPAYWALLS_PREFIX-Konstante (Phase 18) - agents/researcher.py: Claude-Prompts fuer Paywall-Hinweise (zwei Stellen) Verifiziert mit curl: removepaywall.com -> 200, removepaywalls.com -> 403. --- src/agents/researcher.py | 4 ++-- src/services/source_health.py | 4 ++-- 2 files changed, 4 insertions(+), 4 deletions(-) diff --git a/src/agents/researcher.py b/src/agents/researcher.py index 76b25dc..734b62d 100644 --- a/src/agents/researcher.py +++ b/src/agents/researcher.py @@ -77,7 +77,7 @@ REGELN: {language_instruction} - Faktenbasiert und neutral - keine Spekulationen - KRITISCH für source_url: Kopiere die EXAKTE URL aus den WebSearch-Ergebnissen. Erfinde oder konstruiere NIEMALS URLs aus Mustern oder Erinnerung. Wenn du die exakte URL eines Artikels nicht aus den Suchergebnissen hast, lass diesen Artikel komplett weg. -- Nutze removepaywalls.com für Paywall-geschützte Artikel (z.B. Spiegel+, Zeit+, SZ+): https://www.removepaywalls.com/search?url=ARTIKEL_URL +- Nutze removepaywall.com für Paywall-geschützte Artikel (z.B. Spiegel+, Zeit+, SZ+): https://www.removepaywall.com/search?url=ARTIKEL_URL - Nutze WebFetch um die 3-5 wichtigsten Artikel vollständig abzurufen und zusammenzufassen Gib die Ergebnisse AUSSCHLIESSLICH als JSON-Array zurück, ohne Erklärungen davor oder danach. @@ -124,7 +124,7 @@ Nutze spezifische Suchbegriffe für institutionelle Quellen. Ziel: 6-10 weitere PHASE 4 — VERIFIKATION UND VERTIEFUNG: Nutze WebFetch um die 6-10 wichtigsten Artikel vollständig abzurufen und ausführlich zusammenzufassen. Priorisiere dabei Primärquellen und investigative Berichte. -Nutze removepaywalls.com für Paywall-geschützte Artikel (z.B. https://www.removepaywalls.com/search?url=ARTIKEL_URL) +Nutze removepaywall.com für Paywall-geschützte Artikel (z.B. https://www.removepaywall.com/search?url=ARTIKEL_URL) {language_instruction} diff --git a/src/services/source_health.py b/src/services/source_health.py index b07b5a0..ed1242c 100644 --- a/src/services/source_health.py +++ b/src/services/source_health.py @@ -21,7 +21,7 @@ USER_AGENT_BROWSER = ( "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 " "(KHTML, like Gecko) Chrome/120.0 Safari/537.36" ) -REMOVEPAYWALLS_PREFIX = "https://www.removepaywalls.com/search?url=" +REMOVEPAYWALLS_PREFIX = "https://www.removepaywall.com/search?url=" # HTTP-Codes, die einen Retry mit anderem UA rechtfertigen RETRY_ON_STATUS = {403, 406, 429} @@ -124,7 +124,7 @@ async def _check_source_reachability( Phase 18: pro Quelle eine fetch_strategy ('default' | 'googlebot' | 'paywall' | 'skip'). Bei 'default' wird im Fehlerfall (403/406/429) ein Retry mit Googlebot-UA gemacht. - Bei 'paywall' wird auf removepaywalls.com umgeleitet. + Bei 'paywall' wird auf removepaywall.com umgeleitet. Bei 'skip' wird kein Check ausgeführt. """ checks = []