Firecrawl：3.9K+ Star！一键将网站转换为LLM可读的Markdown或结构化数据

小半 • 2025年2月15日下午10:21 • 技术前沿 • 阅读 472

https://github.com/mendableai/firecrawl

Github项目详情见【阅读原文】

项目简介

Firecrawl 是一个由 Mendable.ai 和其社区共同开发的 API 服务，它能够将整个网站转换成适用于大型语言模型（LLM）的 Markdown 或结构化数据。

该服务通过爬取网站及其所有可访问的子页面，提供干净的数据，无需网站地图。

Firecrawl：3.9K+ Star！一键将网站转换为LLM可读的Markdown或结构化数据

使用场景

内容转换：将网页内容转换为 Markdown 或结构化数据，便于进一步处理和分析。
数据提取：从网页中提取所需数据，例如文章标题、评论、元数据等。
搜索引擎优化（SEO）：通过提取网站数据，分析和优化网站的 SEO 表现。
内容聚合：聚合多个网站的内容，创建综合性的信息平台。
自动化文档生成：自动化生成文档，如用户手册、帮助文档等。

使用方法

使用前提

注册Firecrawl以获取API密钥。
安装必要的软件包，比如Python SDK或Node SDK。

使用方法

1. API调用：

使用API密钥，通过cURL命令行工具或SDK调用Firecrawl API。

2. Python SDK

安装：pip install firecrawl-py
示例代码：

from firecrawl import FirecrawlApp
  
app = FirecrawlApp(api_key="YOUR_API_KEY")
crawl_result = app.crawl_url('mendable.ai', {'crawlerOptions': {'excludes': ['blog/*']}})
for result in crawl_result:
    print(result['markdown'])

Node SDK：

安装：npm install @mendable/firecrawl-js
示例代码：

import FirecrawlApp from "@mendable/firecrawl-js";

const app = new FirecrawlApp({
apiKey: "fc-YOUR_API_KEY",
});

const url = 'https://example.com';
const scrapedData = await app.scrapeUrl(url);
console.log(scrapedData);