bug fixed. crawl should not stop if sitemap url is invalid

2025-08-12 05:49:00 +08:00 · 2024-08-20 09:11:58 -03:00 · 2024-08-20 09:11:58 -03:00 · e1c9cbf709
commit e1c9cbf709
parent 0dce57832d
2 changed files with 7 additions and 2 deletions
--- a/apps/api/src/scraper/WebScraper/crawler.ts
+++ b/apps/api/src/scraper/WebScraper/crawler.ts
@ -69,7 +69,13 @@ export class WebCrawler {
  public filterLinks(sitemapLinks: string[], limit: number, maxDepth: number): string[] {
    return sitemapLinks
      .filter((link) => {
-        const url = new URL(link.trim(), this.baseUrl);
+        let url: URL;
+        try {
+          url = new URL(link.trim(), this.baseUrl);
+        } catch (error) {
+          Logger.debug(`Error processing link: ${link} | Error: ${error.message}`);
+          return false;
+        }
        const path = url.pathname;
        
        const depth = getURLDepth(url.toString());
--- a/apps/api/src/scraper/WebScraper/scrapers/fireEngine.ts
+++ b/apps/api/src/scraper/WebScraper/scrapers/fireEngine.ts
@ -73,7 +73,6 @@ export async function scrapWithFireEngine({
    );

    if (pageOptions?.useFastMode) {
-      console.log('using tlsclient')
      fireEngineOptionsParam.engine = "tlsclient";
      engine = "tlsclient";
    }