v-firecrawl/apps/api/src/controllers/scrape.ts

import { Request, Response } from "express";
import { WebScraperDataProvider } from "../scraper/WebScraper";
import { billTeam, checkTeamCredits } from "../services/billing/credit_billing";
import { authenticateUser } from "./auth";
import { RateLimiterMode } from "../types";
import { logJob } from "../services/logging/log_job";
import { Document } from "../lib/entities";
import { isUrlBlocked } from "../scraper/WebScraper/utils/blocklist"; // Import the isUrlBlocked function

export async function scrapeHelper(
  req: Request,
  team_id: string,
  crawlerOptions: any,
  pageOptions: any
): Promise<{
  success: boolean;
  error?: string;
  data?: Document;
  returnCode: number;
}> {
  const url = req.body.url;
  if (!url) {
    return { success: false, error: "Url is required", returnCode: 400 };
  }

  if (isUrlBlocked(url)) {
    return { success: false, error: "Firecrawl currently does not support social media scraping due to policy restrictions. We're actively working on building support for it.", returnCode: 403 };
  }

  const a = new WebScraperDataProvider();
  await a.setOptions({
    mode: "single_urls",
    urls: [url],
    crawlerOptions: {
      ...crawlerOptions,
    },
    pageOptions: pageOptions,
  });

  const docs = await a.getDocuments(false);
  // make sure doc.content is not empty
  const filteredDocs = docs.filter(
    (doc: { content?: string }) => doc.content && doc.content.trim().length > 0
  );
  if (filteredDocs.length === 0) {
    return { success: true, error: "No page found", returnCode: 200 };
  }

    const { success, credit_usage } = await billTeam(
      team_id,
      filteredDocs.length
    );
    if (!success) {
      return {
        success: false,
        error:
          "Failed to bill team. Insufficient credits or subscription not found.",
        returnCode: 402,
      };
    }

  return {
    success: true,
    data: filteredDocs[0],
    returnCode: 200,
  };
}

export async function scrapeController(req: Request, res: Response) {
  try {
    // make sure to authenticate user first, Bearer <token>
    const { success, team_id, error, status } = await authenticateUser(
      req,
      res,
      RateLimiterMode.Scrape
    );
    if (!success) {
      return res.status(status).json({ error });
    }
    const crawlerOptions = req.body.crawlerOptions ?? {};
    const pageOptions = req.body.pageOptions ?? { onlyMainContent: false };
    const origin = req.body.origin ?? "api";

    try {
      const { success: creditsCheckSuccess, message: creditsCheckMessage } =
        await checkTeamCredits(team_id, 1);
      if (!creditsCheckSuccess) {
        return res.status(402).json({ error: "Insufficient credits" });
      }
    } catch (error) {
      console.error(error);
      return res.status(500).json({ error: "Internal server error" });
    }
    const startTime = new Date().getTime();
    const result = await scrapeHelper(
      req,
      team_id,
      crawlerOptions,
      pageOptions
    );
    const endTime = new Date().getTime();
    const timeTakenInSeconds = (endTime - startTime) / 1000;
    logJob({
      success: result.success,
      message: result.error,
      num_docs: 1,
      docs: [result.data],
      time_taken: timeTakenInSeconds,
      team_id: team_id,
      mode: "scrape",
      url: req.body.url,
      crawlerOptions: crawlerOptions,
      pageOptions: pageOptions,
      origin: origin,
    });
    return res.status(result.returnCode).json(result);
  } catch (error) {
    console.error(error);
    return res.status(500).json({ error: error.message });
  }
}
Nick: 2024-04-20 19:38:05 -04:00			`import { Request, Response } from "express";`
Nick: 2024-04-20 22:04:27 -04:00			`import { WebScraperDataProvider } from "../scraper/WebScraper";`
			`import { billTeam, checkTeamCredits } from "../services/billing/credit_billing";`
Nick: 2024-04-20 19:38:05 -04:00			`import { authenticateUser } from "./auth";`
Nick: 2024-04-20 22:04:27 -04:00			`import { RateLimiterMode } from "../types";`
			`import { logJob } from "../services/logging/log_job";`
			`import { Document } from "../lib/entities";`
[Feat] Added blocklist for social media urls 2024-04-23 17:50:35 -04:00			`import { isUrlBlocked } from "../scraper/WebScraper/utils/blocklist"; // Import the isUrlBlocked function`
Nick: 2024-04-20 19:38:05 -04:00
			`export async function scrapeHelper(`
			`req: Request,`
			`team_id: string,`
			`crawlerOptions: any,`
			`pageOptions: any`
Update scrape.ts 2024-04-20 21:55:39 -04:00			`): Promise<{`
			`success: boolean;`
			`error?: string;`
			`data?: Document;`
Nick: 2024-04-20 22:04:27 -04:00			`returnCode: number;`
Update scrape.ts 2024-04-20 21:55:39 -04:00			`}> {`
Nick: 2024-04-20 19:38:05 -04:00			`const url = req.body.url;`
			`if (!url) {`
Update scrape.ts 2024-04-20 21:55:39 -04:00			`return { success: false, error: "Url is required", returnCode: 400 };`
Nick: 2024-04-20 19:38:05 -04:00			`}`

[Feat] Added blocklist for social media urls 2024-04-23 17:50:35 -04:00			`if (isUrlBlocked(url)) {`
Nick: 2024-04-23 19:47:24 -04:00			`return { success: false, error: "Firecrawl currently does not support social media scraping due to policy restrictions. We're actively working on building support for it.", returnCode: 403 };`
[Feat] Added blocklist for social media urls 2024-04-23 17:50:35 -04:00			`}`

Nick: 2024-04-20 19:38:05 -04:00			`const a = new WebScraperDataProvider();`
			`await a.setOptions({`
			`mode: "single_urls",`
			`urls: [url],`
			`crawlerOptions: {`
			`...crawlerOptions,`
			`},`
			`pageOptions: pageOptions,`
			`});`

			`const docs = await a.getDocuments(false);`
			`// make sure doc.content is not empty`
			`const filteredDocs = docs.filter(`
			`(doc: { content?: string }) => doc.content && doc.content.trim().length > 0`
			`);`
			`if (filteredDocs.length === 0) {`
Update scrape.ts 2024-04-20 21:55:39 -04:00			`return { success: true, error: "No page found", returnCode: 200 };`
Nick: 2024-04-20 19:38:05 -04:00			`}`
Caleb: first version of supabase proxy to make db authentication optional 2024-04-21 12:31:22 -04:00
			`const { success, credit_usage } = await billTeam(`
			`team_id,`
			`filteredDocs.length`
			`);`
			`if (!success) {`
			`return {`
			`success: false,`
			`error:`
			`"Failed to bill team. Insufficient credits or subscription not found.",`
			`returnCode: 402,`
			`};`
			`}`

Nick: 2024-04-20 19:38:05 -04:00			`return {`
			`success: true,`
			`data: filteredDocs[0],`
Update scrape.ts 2024-04-20 21:55:39 -04:00			`returnCode: 200,`
Nick: 2024-04-20 19:38:05 -04:00			`};`
			`}`

			`export async function scrapeController(req: Request, res: Response) {`
			`try {`
			`// make sure to authenticate user first, Bearer <token>`
			`const { success, team_id, error, status } = await authenticateUser(`
			`req,`
			`res,`
			`RateLimiterMode.Scrape`
			`);`
			`if (!success) {`
			`return res.status(status).json({ error });`
			`}`
			`const crawlerOptions = req.body.crawlerOptions ?? {};`
			`const pageOptions = req.body.pageOptions ?? { onlyMainContent: false };`
Nick: 2024-04-20 22:37:45 -04:00			`const origin = req.body.origin ?? "api";`
Nick: 2024-04-20 19:38:05 -04:00
			`try {`
			`const { success: creditsCheckSuccess, message: creditsCheckMessage } =`
			`await checkTeamCredits(team_id, 1);`
			`if (!creditsCheckSuccess) {`
			`return res.status(402).json({ error: "Insufficient credits" });`
			`}`
			`} catch (error) {`
			`console.error(error);`
			`return res.status(500).json({ error: "Internal server error" });`
			`}`
Nick: 2024-04-20 22:37:45 -04:00			`const startTime = new Date().getTime();`
Update scrape.ts 2024-04-20 21:55:39 -04:00			`const result = await scrapeHelper(`
			`req,`
			`team_id,`
			`crawlerOptions,`
			`pageOptions`
			`);`
Nick: 2024-04-20 22:37:45 -04:00			`const endTime = new Date().getTime();`
			`const timeTakenInSeconds = (endTime - startTime) / 1000;`
Update scrape.ts 2024-04-20 21:55:39 -04:00			`logJob({`
			`success: result.success,`
			`message: result.error,`
			`num_docs: 1,`
			`docs: [result.data],`
Nick: 2024-04-20 22:37:45 -04:00			`time_taken: timeTakenInSeconds,`
Update scrape.ts 2024-04-20 21:55:39 -04:00			`team_id: team_id,`
			`mode: "scrape",`
			`url: req.body.url,`
			`crawlerOptions: crawlerOptions,`
			`pageOptions: pageOptions,`
Nick: 2024-04-20 22:37:45 -04:00			`origin: origin,`
Update scrape.ts 2024-04-20 21:55:39 -04:00			`});`
Nick: 2024-04-20 22:04:27 -04:00			`return res.status(result.returnCode).json(result);`
Nick: 2024-04-20 19:38:05 -04:00			`} catch (error) {`
			`console.error(error);`
			`return res.status(500).json({ error: error.message });`
			`}`
			`}`