feat: Intelligente Telegram-Kanal-Selektion und verbesserte Quellenzuordnung

- Researcher: Claude-basierte Vorauswahl relevanter Telegram-Kanäle per Haiku
- FactChecker: Verbesserte Quellen-Zuordnung mit Relevanz-Scoring (Top 5)
- FactChecker: URLs werden nicht mehr doppelt zugeordnet, sources_count wird aktualisiert
- TelegramParser: Kanal-Filterung per channel_ids statt categories
- TelegramParser: Lockereres Keyword-Matching (1 Match reicht, da vorselektiert)
- Models: telegram_categories Feld entfernt (durch KI-Selektion ersetzt)
- Main: Chat-Router eingebunden unter /api/chat

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
Dieser Commit ist enthalten in:
Claude Dev
2026-03-15 18:01:32 +01:00
Ursprung 19da099583
Commit 0019d74aea
5 geänderte Dateien mit 140 neuen und 38 gelöschten Zeilen

Datei anzeigen

@@ -136,6 +136,25 @@ Antwort NUR als JSON-Array:
[{{"de": "iran", "en": "iran"}}, {{"de": "israel", "en": "israel"}}, {{"de": "teheran", "en": "tehran"}}, {{"de": "luftangriff", "en": "airstrike"}}, {{"de": "trump", "en": "trump"}}]"""
TELEGRAM_CHANNEL_SELECTION_PROMPT = """Du bist ein OSINT-Analyst. Waehle aus dieser Liste von Telegram-Kanaelen diejenigen aus, die fuer die Lage relevant sein koennten.
LAGE: {title}
KONTEXT: {description}
TELEGRAM-KANAELE:
{channel_list}
REGELN:
- Waehle alle Kanaele die thematisch relevant sein koennten
- Lieber einen Kanal zu viel als zu wenig auswaehlen
- Beachte die Kategorie und Beschreibung jedes Kanals
- Allgemeine OSINT-Kanaele sind oft relevant
- Bei Cybercrime-Themen: Cybercrime + Leaks Kanaele waehlen
- Bei geopolitischen Themen: Relevante Laender-/Regionskanaele waehlen
Antworte NUR mit einem JSON-Array der Kanal-Nummern, z.B.: [1, 3, 5, 12]"""
class ResearcherAgent:
"""Führt OSINT-Recherchen über Claude CLI WebSearch durch."""
@@ -388,3 +407,61 @@ class ResearcherAgent:
logger.warning(f"Konnte Claude-Antwort nicht als JSON parsen (Laenge: {len(response)})")
return []
async def select_relevant_telegram_channels(
self,
title: str,
description: str,
channels_metadata: list[dict],
) -> tuple[list[dict], ClaudeUsage | None]:
"""Laesst Claude die relevanten Telegram-Kanaele fuer eine Lage vorauswaehlen.
Nutzt Haiku (CLAUDE_MODEL_FAST) fuer diese einfache Aufgabe.
Returns:
(ausgewaehlte Kanaele, usage) -- Bei Fehler: (alle Kanaele, None)
"""
if len(channels_metadata) <= 10:
logger.info("Telegram-Selektion: Nur %d Kanaele, nutze alle", len(channels_metadata))
return channels_metadata, None
channel_lines = []
for i, ch in enumerate(channels_metadata, 1):
cat = ch.get("category", "sonstige")
notes = (ch.get("notes") or "")[:100]
channel_lines.append(f"{i}. {ch['name']} [{cat}] - {notes}")
prompt = TELEGRAM_CHANNEL_SELECTION_PROMPT.format(
title=title,
description=description or "Keine weitere Beschreibung",
channel_list="\n".join(channel_lines),
)
try:
result, usage = await call_claude(prompt, tools=None, model=CLAUDE_MODEL_FAST)
arr_match = re.search(r'\[[\d\s,]+\]', result)
if not arr_match:
logger.warning("Telegram-Selektion: Kein JSON in Antwort, nutze alle Kanaele")
return channels_metadata, usage
indices = json.loads(arr_match.group())
selected = []
for idx in indices:
if isinstance(idx, int) and 1 <= idx <= len(channels_metadata):
selected.append(channels_metadata[idx - 1])
if not selected:
logger.warning("Telegram-Selektion: Keine gueltigen Indizes, nutze alle Kanaele")
return channels_metadata, usage
logger.info(
"Telegram-Selektion: %d von %d Kanaelen ausgewaehlt",
len(selected), len(channels_metadata)
)
return selected, usage
except Exception as e:
logger.warning("Telegram-Selektion fehlgeschlagen (%s), nutze alle Kanaele", e)
return channels_metadata, None