feat(sources): PDF-Dokumente als neuer Quellentyp pdf_document
- SOURCE_TYPE_PATTERN um pdf_document erweitert - src/services/pdf_ingest.py: pdfplumber + Tesseract-OCR-Fallback, Uebersetzung nach DE+EN, ein Pool-Artikel pro PDF - Scheduler-Job pdf_ingest laeuft im Minuten-Takt und verarbeitet pdf_document-Quellen mit processed_at IS NULL - scripts/migrate_pdf_source.py: idempotente DB-Migration (sources.pdf_path/pdf_sha256/processed_at, articles.headline_en/content_en) - requirements.txt: pdfplumber, pytesseract, pdf2image, Pillow
Dieser Commit ist enthalten in:
@@ -298,6 +298,8 @@ async def lifespan(app: FastAPI):
|
||||
orchestrator.set_ws_manager(ws_manager)
|
||||
await orchestrator.start()
|
||||
|
||||
from services import pdf_ingest as _pdf_ingest
|
||||
scheduler.add_job(_pdf_ingest.run_once, "interval", minutes=1, id="pdf_ingest", max_instances=1, coalesce=True)
|
||||
scheduler.add_job(check_auto_refresh, "interval", minutes=1, id="auto_refresh")
|
||||
scheduler.add_job(cleanup_expired, "interval", hours=1, id="cleanup")
|
||||
scheduler.add_job(daily_source_health_check, "cron", hour=4, minute=0, id="source_health")
|
||||
|
||||
In neuem Issue referenzieren
Einen Benutzer sperren