🚀🤖 Crawl4AI:开源LLM友好型网络爬虫与抓取工具
Crawl4AI是GitHub趋势榜第一的开源项目,由活跃社区持续维护。它为大型语言模型、AI代理和数据管道提供极速、AI就绪的网络爬取方案。完全开源、灵活且为实时性能而构建的Crawl4AI,赋予开发者无与伦比的速度、精度和部署便捷性。
注意:如需查看旧版文档,请访问此处。
🎯 新功能:自适应网络爬取
Crawl4AI现配备智能自适应爬取功能,懂得何时停止!通过先进的信息觅食算法,它能判断何时已收集足够信息来回答您的查询。
快速开始
以下示例展示如何轻松使用Crawl4AI的异步功能:
import asyncio
from crawl4ai import AsyncWebCrawler
async def main():
# 创建AsyncWebCrawler实例
async with AsyncWebCrawler() as crawler:
# 对URL运行爬虫
result = await crawler.arun(url="https://crawl4ai.com")
# 打印提取内容
print(result.markdown)
# 运行异步主函数
asyncio.run(main())
视频教程
Crawl4AI能做什么?
Crawl4AI是一款功能丰富的爬虫和抓取工具,旨在:
1. 生成纯净Markdown:完美适配RAG管道或直接输入LLM。
2. 结构化提取:通过CSS、XPath或基于LLM的解析提取重复模式。
3. 高级浏览器控制:钩子、代理、隐身模式、会话复用——精细控制。
4. 高性能:并行爬取、分块提取、实时用例支持。
5. 开源:无强制API密钥、无付费墙——人人可访问数据。
核心理念:
- 数据民主化:免费使用、透明且高度可配置。
- LLM友好:最小化处理、结构良好的文本/图像/元数据,便于AI模型消费。
文档结构
为帮助您快速入门,我们将文档分为清晰章节:
- 安装指南
通过pip或Docker安装Crawl4AI的基础说明。 - 快速开始
实践入门指南,展示首次爬取、生成Markdown和简单提取。 - 核心功能
深入讲解单页爬取、高级浏览器/爬虫参数、内容过滤和缓存。 - 进阶指南
探索链接与媒体处理、懒加载、钩子与认证、代理、会话管理等。 - 提取技术
无LLM(CSS/XPath)与基于LLM策略的详细参考,分块与聚类方法。 - API参考
查阅AsyncWebCrawler
、arun()
和CrawlResult
等类与方法的专业技术细节。
各章节均提供可直接复制粘贴的代码示例。如有遗漏或疑问,请提交issue或PR。
支持方式
- 加星 & Fork:若Crawl4AI对您有帮助,请在GitHub加星或fork添加新特性。
- 提交Issue:遇到bug或缺少功能?提交issue让我们改进。
- 发起PR:无论是小修复、大功能还是文档优化——欢迎贡献。
- 加入Discord:与社区交流爬取技巧、AI工作流。
- 口碑传播:在博客、演讲或社交媒体推荐Crawl4AI。
我们的使命:赋能学生、研究者、创业者和数据科学家——以速度、成本效益和创作自由访问、解析和塑造世界数据。
快速链接
感谢您加入这段旅程。让我们共同构建开放、民主的数据提取与AI方案。
爬取愉快!
— Unclecode,Crawl4AI创始人兼维护者