fix: treat existing screenshot as a scraper success condition

2025-08-11 22:39:01 +08:00 · 2024-08-20 22:24:18 +02:00 · 2024-08-20 22:24:18 +02:00 · 1368f9a87f
commit 1368f9a87f
parent 0c48c8a436
2 changed files with 12 additions and 2 deletions
--- a/apps/api/src/controllers/v1/types.ts
+++ b/apps/api/src/controllers/v1/types.ts
@ -279,6 +279,16 @@ export function legacyScrapeOptions(x: ScrapeOptions): PageOptions {
 }

 export function legacyDocumentConverter(doc: any): Document {
+  if (doc.metadata.screenshot) {
+    doc.screenshot = doc.metadata.screenshot;
+    delete doc.metadata.screenshot;
+  }
+
+  if (doc.metadata.fullPageScreenshot) {
+    doc.fullPageScreenshot = doc.metadata.fullPageScreenshot;
+    delete doc.metadata.fullPageScreenshot;
+  }
+
  return {
    markdown: doc.markdown,
    links: doc.linksOnPage,
--- a/apps/api/src/scraper/WebScraper/single_url.ts
+++ b/apps/api/src/scraper/WebScraper/single_url.ts
@ -340,8 +340,8 @@ export async function scrapSingleUrl(
        pageError = undefined;
      }

-      if (text && text.trim().length >= 100) {
-        Logger.debug(`⛏️ ${scraper}: Successfully scraped ${urlToScrap} with text length >= 100, breaking`);
+      if ((text && text.trim().length >= 100) || (typeof screenshot === "string" && screenshot.length > 0)) {
+        Logger.debug(`⛏️ ${scraper}: Successfully scraped ${urlToScrap} with text length >= 100 or screenshot, breaking`);
        break;
      }
      if (pageStatusCode && (pageStatusCode == 404 || pageStatusCode == 500)) {