https://github.com/mendableai/firecrawl
Github项目详情见【阅读原文】
项目简介
Firecrawl 是一个由 Mendable.ai 和其社区共同开发的 API 服务,它能够将整个网站转换成适用于大型语言模型(LLM)的 Markdown 或结构化数据。
该服务通过爬取网站及其所有可访问的子页面,提供干净的数据,无需网站地图。

使用场景
-
内容转换:将网页内容转换为 Markdown 或结构化数据,便于进一步处理和分析。 -
数据提取:从网页中提取所需数据,例如文章标题、评论、元数据等。 -
搜索引擎优化(SEO):通过提取网站数据,分析和优化网站的 SEO 表现。 -
内容聚合:聚合多个网站的内容,创建综合性的信息平台。 -
自动化文档生成:自动化生成文档,如用户手册、帮助文档等。
使用方法
使用前提
-
注册Firecrawl以获取API密钥。 -
安装必要的软件包,比如Python SDK或Node SDK。
使用方法
1. API调用:
使用API密钥,通过cURL命令行工具或SDK调用Firecrawl API。
2. Python SDK
-
安装: pip install firecrawl-py
-
示例代码:
from firecrawl import FirecrawlApp
app = FirecrawlApp(api_key="YOUR_API_KEY")
crawl_result = app.crawl_url('mendable.ai', {'crawlerOptions': {'excludes': ['blog/*']}})
for result in crawl_result:
print(result['markdown'])
-
Node SDK:
-
安装: npm install @mendable/firecrawl-js
-
示例代码:
import FirecrawlApp from "@mendable/firecrawl-js";
const app = new FirecrawlApp({
apiKey: "fc-YOUR_API_KEY",
});
const url = 'https://example.com';
const scrapedData = await app.scrapeUrl(url);
console.log(scrapedData);
API功能
-
Crawling:爬取一个URL及其所有可访问的子页面,返回一个作业ID以检查爬取状态。 -
Scraping:抓取一个URL并获取其内容。 -
Search(Beta):搜索网络,获取最相关结果,抓取每个页面并返回Markdown。 -
Intelligent Extraction(Beta):从抓取的页面中提取结构化数据。
注意事项: 用户在使用Firecrawl
进行抓取、搜索和爬取活动之前,应遵守适用的隐私政策和网站的使用条款。
注:本文内容仅供参考,具体项目特性请参照官方 GitHub 页面的最新说明。
欢迎关注&点赞&在看,感谢阅读~
原文始发于微信公众号(AIGC创想者):Firecrawl:3.9K+ Star!一键将网站转换为LLM可读的Markdown或结构化数据
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之家整理,本文链接:https://www.bmabk.com/index.php/post/315487.html