v-firecrawl/apps/api/src/controllers/crawl.ts

import { Request, Response } from "express";
import { WebScraperDataProvider } from "../../src/scraper/WebScraper";
import { billTeam } from "../../src/services/billing/credit_billing";
import { checkTeamCredits } from "../../src/services/billing/credit_billing";
import { authenticateUser } from "./auth";
import { RateLimiterMode } from "../../src/types";
import { addWebScraperJob } from "../../src/services/queue-jobs";
import { isUrlBlocked } from "../../src/scraper/WebScraper/utils/blocklist";

export async function crawlController(req: Request, res: Response) {
  try {
    const { success, team_id, error, status } = await authenticateUser(
      req,
      res,
      RateLimiterMode.Crawl
    );
    if (!success) {
      return res.status(status).json({ error });
    }

    const { success: creditsCheckSuccess, message: creditsCheckMessage } =
      await checkTeamCredits(team_id, 1);
    if (!creditsCheckSuccess) {
      return res.status(402).json({ error: "Insufficient credits" });
    }

    const url = req.body.url;
    if (!url) {
      return res.status(400).json({ error: "Url is required" });
    }

    if (isUrlBlocked(url)) {
      return res.status(403).json({ error: "Firecrawl currently does not support social media scraping due to policy restrictions. We're actively working on building support for it." });
    }
    
    const mode = req.body.mode ?? "crawl";
    const crawlerOptions = req.body.crawlerOptions ?? {};
    const pageOptions = req.body.pageOptions ?? { onlyMainContent: false };
    const includeHtml = req.body.includeHtml || false;

    if (mode === "single_urls" && !url.includes(",")) {
      try {
        const a = new WebScraperDataProvider();
        await a.setOptions({
          mode: "single_urls",
          urls: [url],
          crawlerOptions: {
            returnOnlyUrls: true,
          },
          pageOptions: pageOptions,
          includeHtml: includeHtml,
        });

        const docs = await a.getDocuments(false, (progress) => {
          job.progress({
            current: progress.current,
            total: progress.total,
            current_step: "SCRAPING",
            current_url: progress.currentDocumentUrl,
          });
        });
        return res.json({
          success: true,
          documents: docs,
        });
      } catch (error) {
        console.error(error);
        return res.status(500).json({ error: error.message });
      }
    }
    const job = await addWebScraperJob({
      url: url,
      mode: mode ?? "crawl", // fix for single urls not working
      crawlerOptions: { ...crawlerOptions },
      team_id: team_id,
      pageOptions: pageOptions,
      origin: req.body.origin ?? "api",
      includeHtml: includeHtml,
    });

    res.json({ jobId: job.id });
  } catch (error) {
    console.error(error);
    return res.status(500).json({ error: error.message });
  }
}
Nick: 2024-04-20 19:38:05 -04:00			`import { Request, Response } from "express";`
			`import { WebScraperDataProvider } from "../../src/scraper/WebScraper";`
			`import { billTeam } from "../../src/services/billing/credit_billing";`
			`import { checkTeamCredits } from "../../src/services/billing/credit_billing";`
			`import { authenticateUser } from "./auth";`
			`import { RateLimiterMode } from "../../src/types";`
			`import { addWebScraperJob } from "../../src/services/queue-jobs";`
[Feat] Added blocklist for social media urls 2024-04-23 17:50:35 -04:00			`import { isUrlBlocked } from "../../src/scraper/WebScraper/utils/blocklist";`
Nick: 2024-04-20 19:38:05 -04:00
			`export async function crawlController(req: Request, res: Response) {`
			`try {`
			`const { success, team_id, error, status } = await authenticateUser(`
			`req,`
			`res,`
			`RateLimiterMode.Crawl`
			`);`
			`if (!success) {`
			`return res.status(status).json({ error });`
			`}`
Nick: cleaner functions to handle authenticated requests that dont require ifs everywhere 2024-04-21 13:36:48 -04:00
			`const { success: creditsCheckSuccess, message: creditsCheckMessage } =`
			`await checkTeamCredits(team_id, 1);`
			`if (!creditsCheckSuccess) {`
			`return res.status(402).json({ error: "Insufficient credits" });`
Nick: 2024-04-20 19:38:05 -04:00			`}`

			`const url = req.body.url;`
			`if (!url) {`
			`return res.status(400).json({ error: "Url is required" });`
			`}`
[Feat] Added blocklist for social media urls 2024-04-23 17:50:35 -04:00
			`if (isUrlBlocked(url)) {`
Nick: 2024-04-23 19:47:24 -04:00			`return res.status(403).json({ error: "Firecrawl currently does not support social media scraping due to policy restrictions. We're actively working on building support for it." });`
[Feat] Added blocklist for social media urls 2024-04-23 17:50:35 -04:00			`}`

Nick: 2024-04-20 19:38:05 -04:00			`const mode = req.body.mode ?? "crawl";`
			`const crawlerOptions = req.body.crawlerOptions ?? {};`
changed to `includeHtml` 2024-05-06 18:45:56 -04:00			`const pageOptions = req.body.pageOptions ?? { onlyMainContent: false };`
			`const includeHtml = req.body.includeHtml \|\| false;`
Nick: 2024-04-20 19:38:05 -04:00
			`if (mode === "single_urls" && !url.includes(",")) {`
			`try {`
			`const a = new WebScraperDataProvider();`
			`await a.setOptions({`
			`mode: "single_urls",`
			`urls: [url],`
			`crawlerOptions: {`
			`returnOnlyUrls: true,`
			`},`
			`pageOptions: pageOptions,`
changed to `includeHtml` 2024-05-06 18:45:56 -04:00			`includeHtml: includeHtml,`
Nick: 2024-04-20 19:38:05 -04:00			`});`

			`const docs = await a.getDocuments(false, (progress) => {`
			`job.progress({`
			`current: progress.current,`
			`total: progress.total,`
			`current_step: "SCRAPING",`
			`current_url: progress.currentDocumentUrl,`
			`});`
			`});`
			`return res.json({`
			`success: true,`
			`documents: docs,`
			`});`
			`} catch (error) {`
			`console.error(error);`
			`return res.status(500).json({ error: error.message });`
			`}`
			`}`
			`const job = await addWebScraperJob({`
			`url: url,`
			`mode: mode ?? "crawl", // fix for single urls not working`
			`crawlerOptions: { ...crawlerOptions },`
			`team_id: team_id,`
			`pageOptions: pageOptions,`
Nick: 2024-04-20 22:37:45 -04:00			`origin: req.body.origin ?? "api",`
changed to `includeHtml` 2024-05-06 18:45:56 -04:00			`includeHtml: includeHtml,`
Nick: 2024-04-20 19:38:05 -04:00			`});`

			`res.json({ jobId: job.id });`
			`} catch (error) {`
			`console.error(error);`
			`return res.status(500).json({ error: error.message });`
			`}`
			`}`